原创 让你更懂AI的 2025-10-08 23:34 北京
无大算力、无RLHF,7M小模型靠递归结构跑出推理反转。
在所有人都以为智能等同于规模的时代,三星研究团队用一个仅 7M 参数的微型神经网络,递归式地“先提答案、再反思改进”,在复杂推理基准 ARC-AGI 上击败了包括 DeepSeek-R1、Gemini 2.5 Pro、o3-mini 在内的多款大模型。这不是一次偶然的实验,而是一场对“智能构型”的重新发问。
在所有人都以为智能等同于规模的时代,三星研究团队用一个仅 7M 参数的微型神经网络,递归式地“先提答案、再反思改进”,在复杂推理基准 ARC-AGI 上击败了包括 DeepSeek-R1、Gemini 2.5 Pro、o3-mini 在内的多款大模型。这不是一次偶然的实验,而是一场对“智能构型”的重新发问。
在推理能力的竞赛中,我们早已习惯把“强大”与“大模型”画上等号。无论是 GPT-4、Gemini,还是 DeepSeek-R1,它们的进步几乎都来自参数量与算力的线性叠加。
但三星研究团队的最新工作——Tiny Recursion Model(TRM)却反其道而行:仅用 7M 参数、两层网络结构,就在被视为“智能极限测试”的 ARC-AGI-1/2 上击败了多款超大模型。
这个结果让人不得不重新思考“智能的尺度”。一个小到能在单卡 GPU 上运行的网络,凭什么在复杂推理任务上超越上千亿参数的系统?
论文的回答非常直接:靠递归思考,而不是算力暴力。TRM 的核心并不是预测句子,而是学会“推理—反思—修正”的循环。模型先生成一个候选答案,再利用内部的隐变量结构 z 对答案进行复盘与调整,整个过程可反复进行十余轮。
这种机制相当于在单一网络中嵌入了“推理回路”:每次迭代都能更新自己的思考轨迹。它不像传统 LLM 那样“一次输出定乾坤”,而是在每次自我修正中不断靠近更合理的结论。
换句话说,TRM 让“小模型”第一次具备了“再思考”的能力。它展示了一种被大型模型浪潮掩盖的事实:智能的增长,不只是参数的堆叠,也可以来自思维结构的递归。
论文标题:
Less is More: Recursive Reasoning with Tiny Networks
论文链接:
https://arxiv.org/pdf/2510.04871
代码链接:
https://github.com/SamsungSAILMontreal/TinyRecursiveModels
研究背景
近年的推理增强主要走两条路线:Chain-of-Thought(CoT)通过显式中间步骤提升可解释性,Test-Time Compute(TTC)在测试阶段追加采样与重打分来换取更高精度。
二者确有收益,但也带来高成本、对高质量推理轨迹的依赖,以及推理链本身易偏误的问题;在更抽象的 ARC-AGI 场景,尤其是难度更高的 ARC-AGI-2,通用大模型仍然吃力。
HRM(Hierarchical Reasoning Model)曾尝试用双网络、不同频率的递归叠加深监督()与 ACT,以较小显存逼近“极深”推理。然而,其固定点 + 一步梯度近似的前提在实际设定下并不稳妥,复现与理解成本偏高;更重要的是,后续分析显示主要收益多来自深监督本身,而非层内的“分层递归”。
TRM(Tiny Recursion Model)选择了一条“更薄”的路径:去层次化、保留最小闭环。它将信息拆分为“答案 y 与推理态 z”,在每个监督步里先更新 z 再改写 y,把“深度”转移到时间维度的递归中。这样既保留了逐步自校正的能力,又避免了复杂前提与额外开销,为后文的方法与消融铺垫了清晰的起点。
TRM 的递归总览——在每个监督步内先对潜在推理态 递归若干步,再据此更新答案 ,最多执行 ;以极少参数实现答案的逐步改进与过拟合抑制。
▲ 图1. TRM 的“先 z 后 y”最小闭环
接下来,我们来看 TRM 在结构层面是如何把“层次推理”压缩成一个能自我循环的最小递归回路。
最小递归的思考结构
2.1 从HRM的分层假设到TRM的最小闭环
本文的核心洞见是:推理不一定依赖深层结构,而可以用时间维度的多步递归实现“深思”。在 Tiny Recursion Model (TRM) 中,作者重新审视了其前作 HRM (Hierarchical Reasoning Model) 的核心假设,并在此基础上提出了一个参数极少、结构极简但具备递归自校正能力的方案。
HRM [1] 依赖双潜变量 表示“快速”与“慢速”推理通路,它们在理论上应收敛到固定点:
这一定义使模型在反向传播时可通过“一步梯度近似”节省显存;然而作者指出,在实际设定 (T=2, n=2) 下该固定点条件难以满足,训练过程往往出现震荡与不稳定。
为此,TRM 放弃了这种层次化的假设,回到最小可行单元——输入 x、当前答案 y 与潜在推理态 z。在每个监督步中,模型执行两次更新:
1. 调用 update_z(x, y_t, z_t) 对推理态 z 进行若干次递归更新;
2. 再调用 update_y(x, z_{t+1}) 用新的 z 修正当前答案 y。
换言之,模型不再依赖双网络或多频率循环,而是在同一网络中完成“推理—反思—修正”的两阶段操作。每个监督步的输出会作为下一步输入,从而在时间维度上展开最多 16 次递归()。
最后,预测答案通过输出头读取:
其中 在 TRM 语境下表示当前答案的嵌入。
▲ 图2. TRM 伪代码。模型在每个监督步内依次执行 update_z 与 update_y,在时间维度上展开多轮自校正循环。
2.2 等效深度:以时间递归取代层级堆叠
由于 TRM 不再通过多层结构制造“深度”,作者定义了一个统一的衡量指标——有效深度(effective depth)。它同时考虑外层循环次数 T、每步内部递归步数 n 以及网络层数 ,用于确保 TRM 与 HRM 在等深度条件下对比公平。
论文中以文字形式说明:当 T=3, n=6 时,约等于 42 层等效深度。在这一条件下,TRM 在 Sudoku-Extreme 与 Maze-Hard 任务上均显著优于 HRM,显示“深度来自递归而非堆叠”的假设成立。
作者进一步指出,这种深度等效的定义允许以时间递归代替空间堆叠:一个两层浅网络,只要拥有足够的递归步与深监督,就能在功能上接近几十层的深模型。
3. 训练稳定性:深监督、EMA与轻量化ACT
递归结构虽紧凑,但易出现梯度发散。为保证稳定性,作者设计了三项关键机制——这三者的组合构成了 TRM 的训练支撑体系。
深监督(Deep Supervision):每个递归步都输出中间监督信号,并参与损失累积。这样能让梯度从多层次路径传播,显著缓解递归展开造成的梯度消失。
轻量化 ACT(Adaptive Computation Time):相比 HRM 的 ACT,TRM 去除了“继续损失(continue loss)”,仅保留是否继续的二元决策,避免了每步两次前向计算。实验显示,这一修改几乎不损伤性能,却使训练成本减半。
EMA(Exponential Moving Average):在小样本任务中,权重更新容易震荡。TRM 采用 EMA (系数 0.999) 平滑参数轨迹,带来显著的泛化提升与稳定收敛。
▲ 图3. HRM 与 TRM 的训练流程对比。HRM 需要额外一次前向计算以获得 “继续损失”, TRM 的轻量 ACT 则省去该步骤。
从结构到训练策略,TRM 的设计逻辑始终围绕一个核心原则:让浅层网络安全地模拟深层推理。深监督提供逐步修正的通道,EMA 抑制波动,轻量化 ACT 控制开销。最终,一个仅 7 M 参数、两层的小模型,能够稳定展开 16 步递归而不崩溃。
这种“以稳制深”的范式,为后续研究提供了重要启示:推理模型的能力不必依赖堆叠深度,而可由递归结构与稳态训练共同塑造。
小模型的非常规胜利
Sudoku-Extreme:深监督撑起“深推理”
在 Sudoku-Extreme 任务上,TRM 在几乎所有“等有效深度”设置下都超越 HRM。当深度 42 (T=3,n=6)时,TRM 测试准确率 87.4%,而 HRM 仅 61.6%。差距来自结构与稳定性的改进,而非规模。
▲ 表1. Sudoku-Extreme 等有效深度实验。TRM 在所有可运行深度下均优于 HRM,显存占用更低。
TRM 的单网络结构减少了一半前向计算,但在稳定性和准确率上却全面领先,说明深监督与 EMA 确实替代了堆叠带来的复杂度。
Maze-Hard:长程依赖中自注意力取胜
任务换成 30×30 迷宫后,递归需处理更长的依赖。此时 TRM-Att(7 M)明显优于 MLP 版本(85.3% 对 74.5%)。这说明递归机制并非单一结构特性,而能与注意力架构良好结合。固定规则的 Sudoku 更适合 MLP;动态拓扑的 Maze 更依赖注意力的全局交互。
▲ 表2. Puzzle 任务(Sudoku 与 Maze)。TRM-MLP 适合短上下文,TRM-Att 在长程交互中更强。
ARC-AGI-1/2:7M模型的非常规胜利
真正引爆话题的是 ARC-AGI 结果。在两次作答的标准评测口径下,TRM-Att (7 M) 超越了 DeepSeek-R1、Gemini 2.5 Pro 和 o3-mini-high 等通用大模型。虽然仍不及 Grok-4-thinking 这类特化模型,但其规模仅为对方的万分之一。
TRM 无需强化学习、无需外部工具,只靠自身递归与深监督完成自我修正。这使得它在计算成本几乎可忽略的情况下,展现出与顶级模型竞争的推理力。
▲ 表3. ARC-AGI-1/2 结果。 图注:7 M 模型 TRM-Att 超越多数通用 LLM,验证递归结构的高效性。
从堆叠到递归:推理结构的新基线
TRM 的研究价值,不在于以小博大本身,而在于提供了一种可验证的替代思路:推理能力的提升可以通过结构递归与稳定优化实现,而不必依赖更大的模型规模或更多的训练算力。
在这项工作中,作者以极少的参数构建出一个具备多步推理能力的系统,验证了时间维度的递归能够在功能上部分替代空间维度的堆叠,并以更低的资源消耗达到相似甚至更优的效果。
从机制层面看,TRM 的核心贡献在于对递归训练稳定性的系统性解决:
深监督提供了跨步梯度信号,使模型能够在较长的递归链上保持可训练性;
EMA 抑制了小样本条件下的震荡,保证权重更新的连续性;
轻量化 ACT 则在控制计算预算的同时维持了训练效率。
这些要素共同构成了一个可复现的技术框架,使“深推理”首次能够在轻量网络上被稳定实现。
工程上,TRM 提示我们,性能提升并非只能依赖参数扩张。在资源受限或专用任务场景下,递归结构与稳态优化策略可能成为一条更具成本效益的途径。这一思路不仅适用于小模型的推理任务,也为更复杂系统的多步决策与反思机制提供了可行模板。
从更长远的研究视角看,TRM 的出现标志着推理模型设计从“深层堆叠”向“递归自校正”转变的趋势。它不否定大模型的重要性,而是为智能系统的未来结构提供了另一种可能:通过循环、稳定和分步优化的方式,在有限规模下实现持续的推理改进。
参考文献
[1] Wang, G., Li, J., Sun, Y., Chen, X., Liu, C., Wu, Y., Lu, M., Song, S., and Yadkori, Y. A. Hierarchical reasoning model. arXiv preprint arXiv:2506.21734, 2025.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·