原创 让你更懂AI的 2025-09-29 14:31 北京
轻量模型的深度时刻
当“并行分叉”和“逐步自省”不再互斥,Recursive Self-Aggregation(RSA)像一台“思维基因重组机”,把多条推理链里的正确片段拼成更强的解题方案——甚至让 Qwen3-4B 这类小模型,在无需外部验证器的前提下,也能逼近头部推理模型的无-RSA 表现。
当“并行分叉”和“逐步自省”不再互斥,Recursive Self-Aggregation(RSA)像一台“思维基因重组机”,把多条推理链里的正确片段拼成更强的解题方案——甚至让 Qwen3-4B 这类小模型,在无需外部验证器的前提下,也能逼近头部推理模型的无-RSA 表现。
“测试时扩展”(test-time scaling)这两年像是一条通往更强推理力的高速路:一条车道是并行探索——采样若干条候选、做多数投票或挑最优;另一条车道是顺序精炼——让模型自我反思、逐步纠错。遗憾的是,二者各擅胜场却互有短板:并行法覆盖广但“挖得浅”,顺序法专注深挖却缺乏分叉探索。
Recursive Self-Aggregation(RSA)试图打通两条车道。它来自 Mila/蒙特利尔大学联合 LLNL、爱丁堡大学等机构的合作,Yoshua Bengio 参与其中。
论文团队把推理看作一个“群体演化”的过程:每一代都从候选解集合中抽取多个小子集,由同一个模型对它们进行自聚合,生成更优的“后代”;多代演化后,再从终态种群中选择答案。
换句话说,RSA 把“并行的多样性”和“顺序的深度”做了一个闭环,既保留“分叉搜索”的覆盖面,又把“逐步自省”的长处嵌入到每一次聚合之中。
这条路的“野心”,在于用极少的工程脚手架——不依赖外部判分器、不更改模型权重——去获得单调且可预期的性能提升。
论文标题:
Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models
论文链接:
https://rsa-llm.github.io/static/pdfs/Recursive_Self_Aggregation.pdf
项目主页:
代码链接:
https://github.com/HyperPotatoNeo/RSA
并行 vs. 顺序的“半壁江山”,缺一角的拼图
并行扩展(Best-of-N、多数投票、拒绝采样等)优点是覆盖面广、易并行;缺点是很少复用不同候选链条里那些“局部正确”的中间步骤。
顺序扩展(自我反思/自我润色)优点是能进行纵深修正;缺点是缺少分叉,一旦陷入错误思路就可能“越走越对错”。一些混合方法尝试把两者拼在一起,但通常依赖外部验证器(如裁判模型或程序化测试器),或者对推理链结构做强假设,泛化有限。
把这两条路放到同一张“地图”上看,会更清楚:论文将 test-time scaling 概括为并行(parallel)/顺序(sequential)/混合(hybrid)三类控制流,并强调很多既有方法借助外部或学习到的验证器来甄别候选,这也解释了为何“只靠模型自身进行聚合”的路线一直稀缺而关键。
▲ 图1. 测试时扩展的三类控制流
并行方法在多候选中择优(常依赖外部/学习到的验证器);顺序方法在单条链上迭代修正;混合方法把“分叉 + 精炼”组合,但多伴随外部验证或复杂脚手架。
该“方法图谱”为下文的 RSA 铺垫——它尝试在不依赖外部验证器的前提下,以“递归自聚合”的方式把并行的多样性与顺序的深度闭环起来。
顺着这幅“地图”,就更容易看清 RSA 的切口:它并非再造一个更强的“裁判”,而是让同一个模型在每一步都把若干候选链“聚合成更好的后代”,并通过递归更新让“跨链一致的正确片段”逐步扩散、反复出现的错误模式被自然稀释。
换句话说,它把“分叉探索”与“逐步自省”收拢进同一条控制流,补上了混合范式中长期缺失的那一角。
把“思维链”做成可重组的“拼图”
1. RSA的三要素:N、K、T
RSA 的算法构件极其克制:种群大小 、聚合集合大小 、递归步数 。先说初始化:给定问题 ,参考模型(可与被测模型相同)独立生成 条初始推理链,作为第一代种群 :
接着进入第 代:从当前种群 中无放回抽取 个子集,每个子集大小为 :
把“问题+子集 ”拼接成聚合提示,喂给同一个参考模型,产出新一代候选:
▲ 图2. RSA Pipeline / 工作流
RSA 将“并行探索(多条链)”与“顺序深挖(递归聚合)”闭环在一起:每代从种群采 个大小为 的子集,以聚合提示生成“后代”,递归 代后从终态种群中选答案。
终止策略很朴素:在 中均匀采样一个答案(论文主结果均采用该策略),或进行简单多数投票。直觉上,随着 增加,“跨链一致的中间步骤”在种群中的频次会提高,成为显性基因;而“反复出错的片段”被聚合过程自然稀释掉。
2. 为什么“越聚越好”?一个可视化直觉
把每条推理链想象成一串标注为“对/错”的珠子。并行抽 条链,模型在聚合提示下去“识别并拼接”这些链条里一致的正确片段,丢弃分歧处与错误段。重复 次,正确片段的相对频次不断上升,群体中“优良基因”扩散开来。这解释了为什么 RSA 的收益随步数 单调上升(后文在实验里会看到具体曲线)。
▲ 图3. RSA递归伪代码/流程示意
初始化 ,循环 ,子集抽样 聚合提示 生成“后代”更新 ,最终在 选答。
小结: 控制多样性池的宽度, 决定“基因重组”的强度, 决定“正确基因”的传播时间。预算固定时,宁可略减 、把 堆高一些,常更划算(证据见实验部分的“步数曲线”)。
3. “让模型学会聚合”的RL版本(聚合感知训练)
如果训练目标只优化“直接答对”,而测试时却让模型先看一组候选再聚合,就会出现训练—推理错配。论文在 RL 框架下把“聚合”写进目标:先用参考策略采样 条候选形成聚合集 ,然后最大化:
直观地说,策略直接在条件分布 上学习“聚合偏好”:见到“多链上下文”时更倾向保留跨链一致的中间步骤;同时用 KL 将行为锚在参考策略上,避免学出过度的“聚合口癖”。实作可用 RLOO/PPO/GRPO 等优化器(论文主实验采用 RLOO)。
不是“更会投票”,而是真在“深度整合”
跨任务主结果:RSA的“深度收益”
论文主结果统一采用 。对比参考模型、拒绝采样、自我润色、多数投票、单步自聚合()与递归自聚合(),RSA 在数学(AIME/HMMT)、代码(LiveCodeBench)、综合推理(Reasoning Gym)等任务上全面超越多数基线。
▲ 表1. 实验主结果
RSA(T=10)在大多数任务上显著优于拒绝采样、自我润色与投票;T=1 的单步聚合明显不如递归版本,说明递归本身带来“深度收益”。
“小模型反杀”与模型无关性
更有趣的是,把 RSA 套在 Qwen3-4B-Instruct 这类“轻量模型”上,也能获得非常可观的提升,逼近甚至打平一些大型/思维强化模型的无-RSA表现。对不同家族(指令/思维)模型的提升具有一致性,说明 RSA 更像一种通用控制流增益,而非对某类模型的“外挂补丁”。
▲ 图4. 跨模型增益
在 AIME-25 与 LiveCodeBench-v6 上,不同模型(如 Qwen3-4B/30B、GPT-OSS-20B、Nemotron-9B 等)在加 RSA 后均获得显著 ΔPass@1;小模型涨幅尤为亮眼。
步数 T 的“单调曲线”与 K 的边际
RSA 的“可控可兑付”体现在步数—收益曲线上。随 T 增加,Pass@1 总体单调上升;K 从 1→2 的提升最显著,K≥3 后边际递减。极少数任务在 T 过大时略有回落,通常与任务结构与上下文窗口利用有关。
▲ 图5. 步数与K的影响
随步数 T 增加,曲线整体单调上升;K 从 1 到 2 的跃升最大,之后边际递减。
何时“投票更香”?SuperGPQA的例外
在多选题这类“选项即验证器”的场景,多数投票天然占优势:因为“答案层的频率”本身就是强判据。RSA 在此类任务上的优势会被冲淡。这也提示我们:RSA 的核心价值,是在“过程可拆解与可验证”的任务里实现“中间步骤层的自证”(数学、代码、程序合成、规划/博弈等)。
▲ 表1. 投票对比
在 SuperGPQA 等多选类任务,多数投票与 RSA 的差距缩小甚至反超;在“可拆解可验证”的任务(数学/代码)上,RSA 优势明显。
聚合感知RL:闭环之后的加成
当训练目标也纳入“聚合”,RSA 的收益还会被进一步放大。这印证了“把推理控制流纳入训练域”的近年趋势:在训练时就让模型见过“多链聚合”的形式,测试时自然更稳更强。
▲ 图6. 总体效果与RL放大示意/对比
在 AIME、HMMT、Reasoning Gym、LiveCodeBench 等任务上,Base + RSA + RL 在 Pass@1 上对 Base + RSA 实现了进一步放大的增益。
从“更会选”到“更会合”
RSA 的价值,不在于它让投票法更聪明,而在于它改变了思维链的节律。并行扩展强调“覆盖”,顺序精炼强调“深挖”,RSA 则让二者在一个递归循环里交织:候选解像基因一样被反复重组,正确片段在一代代聚合中扩散开来,错误模式逐步被稀释掉。这样一来,推理不再只是“多尝试选最优”,而是“多拼合成更优”。
对于 test-time scaling 的研究,这是一种范式性的转折。过去我们更多依赖外部验证器或复杂脚手架来提高准确率,而 RSA 显示出,大模型内部的隐式自证能力足以承担起“聚合者”的角色。尤其是在数学、代码、博弈这类中间步骤可自证的场景里,总体上它展现出比投票或自我润色更稳定、更单调的性能曲线。
更重要的是,RSA 给了“小模型”一次证明自己的机会。像 Qwen3-4B 这样的轻量模型,在 RSA 的加持下,居然能逼近 DeepSeek-R1 和 o3-mini(high)的表现。这种“低算力环境下的小模型增强”意义非凡:它把过去看似属于大模型的能力,开放给更广泛的应用场景。
实践启示与边界
当然,RSA 不是一剂万能药。它的优势来自于“中间片段的可复用性”,这决定了它更适合那些能拆解出推理链的任务:数学证明、编程题、规划与博弈。如果是多选问答类,答案本身就是验证器,多数投票往往更具性价比。
在部署时,你可以从一个简单的组合开始:种群规模 N 设在十几条,聚合集合 K 不必太大(从 1 到 2 的提升最显著,再往上边际递减),然后把预算更多分配给递归步数 T,让正确片段有时间扩散。这比盲目扩大并行采样更划算。若担心模式塌陷,可以在迭代中注入温度扰动或新链,维持候选多样性。
把 RSA 融入训练是更进一步的选择。论文提出的“聚合感知 RL”已经显示出优势:训练时就让模型见过“多链聚合”的形式,测试时它自然能更稳妥地把分散的片段合并成完整的答案。不过这需要控制好 KL 系数,避免模型学出过度的“聚合口癖”。
换句话说,RSA 的故事告诉我们:推理的提升,不仅仅是“更会选”,更在于“更会合”。如果说过去的 scaling law 让我们在参数和算力的纵轴上不断攀升,那么 RSA 打开了横轴上的另一条路——如何用更多的思维节律,把已有的模型,熬出更深的智慧。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·