ToolsAi

原创让你更懂AI的 2025-09-29 14:31 北京

轻量模型的深度时刻

当“并行分叉”和“逐步自省”不再互斥，Recursive Self-Aggregation（RSA）像一台“思维基因重组机”，把多条推理链里的正确片段拼成更强的解题方案——甚至让 Qwen3-4B 这类小模型，在无需外部验证器的前提下，也能逼近头部推理模型的无-RSA 表现。

“测试时扩展”（test-time scaling）这两年像是一条通往更强推理力的高速路：一条车道是并行探索——采样若干条候选、做多数投票或挑最优；另一条车道是顺序精炼——让模型自我反思、逐步纠错。遗憾的是，二者各擅胜场却互有短板：并行法覆盖广但“挖得浅”，顺序法专注深挖却缺乏分叉探索。

Recursive Self-Aggregation（RSA）试图打通两条车道。它来自 Mila/蒙特利尔大学联合 LLNL、爱丁堡大学等机构的合作，Yoshua Bengio 参与其中。

论文团队把推理看作一个“群体演化”的过程：每一代都从候选解集合中抽取多个小子集，由同一个模型对它们进行自聚合，生成更优的“后代”；多代演化后，再从终态种群中选择答案。

换句话说，RSA 把“并行的多样性”和“顺序的深度”做了一个闭环，既保留“分叉搜索”的覆盖面，又把“逐步自省”的长处嵌入到每一次聚合之中。

这条路的“野心”，在于用极少的工程脚手架——不依赖外部判分器、不更改模型权重——去获得单调且可预期的性能提升。

论文标题：

Recursive Self-Aggregation Unlocks Deep Thinking in Large Language Models

论文链接：

https://rsa-llm.github.io/static/pdfs/Recursive_Self_Aggregation.pdf

项目主页：

https://rsa-llm.github.io/

代码链接：

https://github.com/HyperPotatoNeo/RSA

并行 vs. 顺序的“半壁江山”，缺一角的拼图

并行扩展（Best-of-N、多数投票、拒绝采样等）优点是覆盖面广、易并行；缺点是很少复用不同候选链条里那些“局部正确”的中间步骤。

顺序扩展（自我反思/自我润色）优点是能进行纵深修正；缺点是缺少分叉，一旦陷入错误思路就可能“越走越对错”。一些混合方法尝试把两者拼在一起，但通常依赖外部验证器（如裁判模型或程序化测试器），或者对推理链结构做强假设，泛化有限。

把这两条路放到同一张“地图”上看，会更清楚：论文将 test-time scaling 概括为并行（parallel）／顺序（sequential）／混合（hybrid）三类控制流，并强调很多既有方法借助外部或学习到的验证器来甄别候选，这也解释了为何“只靠模型自身进行聚合”的路线一直稀缺而关键。

▲ 图1. 测试时扩展的三类控制流

并行方法在多候选中择优（常依赖外部/学习到的验证器）；顺序方法在单条链上迭代修正；混合方法把“分叉 + 精炼”组合，但多伴随外部验证或复杂脚手架。

该“方法图谱”为下文的 RSA 铺垫——它尝试在不依赖外部验证器的前提下，以“递归自聚合”的方式把并行的多样性与顺序的深度闭环起来。

顺着这幅“地图”，就更容易看清 RSA 的切口：它并非再造一个更强的“裁判”，而是让同一个模型在每一步都把若干候选链“聚合成更好的后代”，并通过递归更新让“跨链一致的正确片段”逐步扩散、反复出现的错误模式被自然稀释。

换句话说，它把“分叉探索”与“逐步自省”收拢进同一条控制流，补上了混合范式中长期缺失的那一角。

把“思维链”做成可重组的“拼图”

1. RSA的三要素：N、K、T

RSA 的算法构件极其克制：种群大小、聚合集合大小、递归步数。先说初始化：给定问题，参考模型（可与被测模型相同）独立生成条初始推理链，作为第一代种群：

接着进入第代：从当前种群中无放回抽取个子集，每个子集大小为：

把“问题+子集 ”拼接成聚合提示，喂给同一个参考模型，产出新一代候选：

▲ 图2. RSA Pipeline / 工作流

RSA 将“并行探索（多条链）”与“顺序深挖（递归聚合）”闭环在一起：每代从种群采个大小为的子集，以聚合提示生成“后代”，递归代后从终态种群中选答案。

终止策略很朴素：在中均匀采样一个答案（论文主结果均采用该策略），或进行简单多数投票。直觉上，随着增加，“跨链一致的中间步骤”在种群中的频次会提高，成为显性基因；而“反复出错的片段”被聚合过程自然稀释掉。

2. 为什么“越聚越好”？一个可视化直觉

把每条推理链想象成一串标注为“对/错”的珠子。并行抽条链，模型在聚合提示下去“识别并拼接”这些链条里一致的正确片段，丢弃分歧处与错误段。重复次，正确片段的相对频次不断上升，群体中“优良基因”扩散开来。这解释了为什么 RSA 的收益随步数单调上升（后文在实验里会看到具体曲线）。

▲ 图3. RSA递归伪代码/流程示意

初始化，循环，子集抽样聚合提示生成“后代”更新，最终在选答。

小结：控制多样性池的宽度，决定“基因重组”的强度，决定“正确基因”的传播时间。预算固定时，宁可略减、把堆高一些，常更划算（证据见实验部分的“步数曲线”）。

3. “让模型学会聚合”的RL版本（聚合感知训练）

如果训练目标只优化“直接答对”，而测试时却让模型先看一组候选再聚合，就会出现训练—推理错配。论文在 RL 框架下把“聚合”写进目标：先用参考策略采样条候选形成聚合集，然后最大化：

直观地说，策略直接在条件分布上学习“聚合偏好”：见到“多链上下文”时更倾向保留跨链一致的中间步骤；同时用 KL 将行为锚在参考策略上，避免学出过度的“聚合口癖”。实作可用 RLOO/PPO/GRPO 等优化器（论文主实验采用 RLOO）。

不是“更会投票”，而是真在“深度整合”

跨任务主结果：RSA的“深度收益”

论文主结果统一采用。对比参考模型、拒绝采样、自我润色、多数投票、单步自聚合（）与递归自聚合（），RSA 在数学（AIME/HMMT）、代码（LiveCodeBench）、综合推理（Reasoning Gym）等任务上全面超越多数基线。

▲ 表1. 实验主结果

RSA（T=10）在大多数任务上显著优于拒绝采样、自我润色与投票；T=1 的单步聚合明显不如递归版本，说明递归本身带来“深度收益”。

“小模型反杀”与模型无关性

更有趣的是，把 RSA 套在 Qwen3-4B-Instruct 这类“轻量模型”上，也能获得非常可观的提升，逼近甚至打平一些大型/思维强化模型的无-RSA表现。对不同家族（指令/思维）模型的提升具有一致性，说明 RSA 更像一种通用控制流增益，而非对某类模型的“外挂补丁”。

▲ 图4. 跨模型增益

在 AIME-25 与 LiveCodeBench-v6 上，不同模型（如 Qwen3-4B/30B、GPT-OSS-20B、Nemotron-9B 等）在加 RSA 后均获得显著 ΔPass@1；小模型涨幅尤为亮眼。

步数 T 的“单调曲线”与 K 的边际

RSA 的“可控可兑付”体现在步数—收益曲线上。随 T 增加，Pass@1 总体单调上升；K 从 1→2 的提升最显著，K≥3 后边际递减。极少数任务在 T 过大时略有回落，通常与任务结构与上下文窗口利用有关。

▲ 图5. 步数与K的影响

随步数 T 增加，曲线整体单调上升；K 从 1 到 2 的跃升最大，之后边际递减。

何时“投票更香”？SuperGPQA的例外

在多选题这类“选项即验证器”的场景，多数投票天然占优势：因为“答案层的频率”本身就是强判据。RSA 在此类任务上的优势会被冲淡。这也提示我们：RSA 的核心价值，是在“过程可拆解与可验证”的任务里实现“中间步骤层的自证”（数学、代码、程序合成、规划/博弈等）。

▲ 表1. 投票对比

在 SuperGPQA 等多选类任务，多数投票与 RSA 的差距缩小甚至反超；在“可拆解可验证”的任务（数学/代码）上，RSA 优势明显。

聚合感知RL：闭环之后的加成

当训练目标也纳入“聚合”，RSA 的收益还会被进一步放大。这印证了“把推理控制流纳入训练域”的近年趋势：在训练时就让模型见过“多链聚合”的形式，测试时自然更稳更强。

▲ 图6. 总体效果与RL放大示意/对比

在 AIME、HMMT、Reasoning Gym、LiveCodeBench 等任务上，Base + RSA + RL 在 Pass@1 上对 Base + RSA 实现了进一步放大的增益。

从“更会选”到“更会合”

RSA 的价值，不在于它让投票法更聪明，而在于它改变了思维链的节律。并行扩展强调“覆盖”，顺序精炼强调“深挖”，RSA 则让二者在一个递归循环里交织：候选解像基因一样被反复重组，正确片段在一代代聚合中扩散开来，错误模式逐步被稀释掉。这样一来，推理不再只是“多尝试选最优”，而是“多拼合成更优”。

对于 test-time scaling 的研究，这是一种范式性的转折。过去我们更多依赖外部验证器或复杂脚手架来提高准确率，而 RSA 显示出，大模型内部的隐式自证能力足以承担起“聚合者”的角色。尤其是在数学、代码、博弈这类中间步骤可自证的场景里，总体上它展现出比投票或自我润色更稳定、更单调的性能曲线。

更重要的是，RSA 给了“小模型”一次证明自己的机会。像 Qwen3-4B 这样的轻量模型，在 RSA 的加持下，居然能逼近 DeepSeek-R1 和 o3-mini（high）的表现。这种“低算力环境下的小模型增强”意义非凡：它把过去看似属于大模型的能力，开放给更广泛的应用场景。