ToolsAi

原创让你更懂AI的 2025-10-08 23:34 北京

无大算力、无RLHF，7M小模型靠递归结构跑出推理反转。

在所有人都以为智能等同于规模的时代，三星研究团队用一个仅 7M 参数的微型神经网络，递归式地“先提答案、再反思改进”，在复杂推理基准 ARC-AGI 上击败了包括 DeepSeek-R1、Gemini 2.5 Pro、o3-mini 在内的多款大模型。这不是一次偶然的实验，而是一场对“智能构型”的重新发问。

在推理能力的竞赛中，我们早已习惯把“强大”与“大模型”画上等号。无论是 GPT-4、Gemini，还是 DeepSeek-R1，它们的进步几乎都来自参数量与算力的线性叠加。

但三星研究团队的最新工作——Tiny Recursion Model（TRM）却反其道而行：仅用 7M 参数、两层网络结构，就在被视为“智能极限测试”的 ARC-AGI-1/2 上击败了多款超大模型。

这个结果让人不得不重新思考“智能的尺度”。一个小到能在单卡 GPU 上运行的网络，凭什么在复杂推理任务上超越上千亿参数的系统？

论文的回答非常直接：靠递归思考，而不是算力暴力。TRM 的核心并不是预测句子，而是学会“推理—反思—修正”的循环。模型先生成一个候选答案，再利用内部的隐变量结构 z 对答案进行复盘与调整，整个过程可反复进行十余轮。

这种机制相当于在单一网络中嵌入了“推理回路”：每次迭代都能更新自己的思考轨迹。它不像传统 LLM 那样“一次输出定乾坤”，而是在每次自我修正中不断靠近更合理的结论。

换句话说，TRM 让“小模型”第一次具备了“再思考”的能力。它展示了一种被大型模型浪潮掩盖的事实：智能的增长，不只是参数的堆叠，也可以来自思维结构的递归。

论文标题：

Less is More: Recursive Reasoning with Tiny Networks

论文链接：

https://arxiv.org/pdf/2510.04871

代码链接：

https://github.com/SamsungSAILMontreal/TinyRecursiveModels

研究背景

近年的推理增强主要走两条路线：Chain-of-Thought（CoT）通过显式中间步骤提升可解释性，Test-Time Compute（TTC）在测试阶段追加采样与重打分来换取更高精度。

二者确有收益，但也带来高成本、对高质量推理轨迹的依赖，以及推理链本身易偏误的问题；在更抽象的 ARC-AGI 场景，尤其是难度更高的 ARC-AGI-2，通用大模型仍然吃力。

HRM（Hierarchical Reasoning Model）曾尝试用双网络、不同频率的递归叠加深监督（）与 ACT，以较小显存逼近“极深”推理。然而，其固定点 + 一步梯度近似的前提在实际设定下并不稳妥，复现与理解成本偏高；更重要的是，后续分析显示主要收益多来自深监督本身，而非层内的“分层递归”。

TRM（Tiny Recursion Model）选择了一条“更薄”的路径：去层次化、保留最小闭环。它将信息拆分为“答案 y 与推理态 z”，在每个监督步里先更新 z 再改写 y，把“深度”转移到时间维度的递归中。这样既保留了逐步自校正的能力，又避免了复杂前提与额外开销，为后文的方法与消融铺垫了清晰的起点。

TRM 的递归总览——在每个监督步内先对潜在推理态递归若干步，再据此更新答案，最多执行；以极少参数实现答案的逐步改进与过拟合抑制。

▲ 图1. TRM 的“先 z 后 y”最小闭环

接下来，我们来看 TRM 在结构层面是如何把“层次推理”压缩成一个能自我循环的最小递归回路。

最小递归的思考结构

2.1 从HRM的分层假设到TRM的最小闭环

本文的核心洞见是：推理不一定依赖深层结构，而可以用时间维度的多步递归实现“深思”。在 Tiny Recursion Model (TRM) 中，作者重新审视了其前作 HRM (Hierarchical Reasoning Model) 的核心假设，并在此基础上提出了一个参数极少、结构极简但具备递归自校正能力的方案。

HRM [1] 依赖双潜变量表示“快速”与“慢速”推理通路，它们在理论上应收敛到固定点：

这一定义使模型在反向传播时可通过“一步梯度近似”节省显存；然而作者指出，在实际设定 (T=2, n=2) 下该固定点条件难以满足，训练过程往往出现震荡与不稳定。

为此，TRM 放弃了这种层次化的假设，回到最小可行单元——输入 x、当前答案 y 与潜在推理态 z。在每个监督步中，模型执行两次更新：

1. 调用 update_z(x, y_t, z_t) 对推理态 z 进行若干次递归更新；

2. 再调用 update_y(x, z_{t+1}) 用新的 z 修正当前答案 y。

换言之，模型不再依赖双网络或多频率循环，而是在同一网络中完成“推理—反思—修正”的两阶段操作。每个监督步的输出会作为下一步输入，从而在时间维度上展开最多 16 次递归（）。

最后，预测答案通过输出头读取：

其中在 TRM 语境下表示当前答案的嵌入。

▲ 图2. TRM 伪代码。模型在每个监督步内依次执行 update_z 与 update_y，在时间维度上展开多轮自校正循环。

2.2 等效深度：以时间递归取代层级堆叠

由于 TRM 不再通过多层结构制造“深度”，作者定义了一个统一的衡量指标——有效深度（effective depth）。它同时考虑外层循环次数 T、每步内部递归步数 n 以及网络层数，用于确保 TRM 与 HRM 在等深度条件下对比公平。

论文中以文字形式说明：当 T=3, n=6 时，约等于 42 层等效深度。在这一条件下，TRM 在 Sudoku-Extreme 与 Maze-Hard 任务上均显著优于 HRM，显示“深度来自递归而非堆叠”的假设成立。

作者进一步指出，这种深度等效的定义允许以时间递归代替空间堆叠：一个两层浅网络，只要拥有足够的递归步与深监督，就能在功能上接近几十层的深模型。

3. 训练稳定性：深监督、EMA与轻量化ACT

递归结构虽紧凑，但易出现梯度发散。为保证稳定性，作者设计了三项关键机制——这三者的组合构成了 TRM 的训练支撑体系。

深监督（Deep Supervision）：每个递归步都输出中间监督信号，并参与损失累积。这样能让梯度从多层次路径传播，显著缓解递归展开造成的梯度消失。

轻量化 ACT（Adaptive Computation Time）：相比 HRM 的 ACT，TRM 去除了“继续损失（continue loss）”，仅保留是否继续的二元决策，避免了每步两次前向计算。实验显示，这一修改几乎不损伤性能，却使训练成本减半。

EMA（Exponential Moving Average）：在小样本任务中，权重更新容易震荡。TRM 采用 EMA (系数 0.999) 平滑参数轨迹，带来显著的泛化提升与稳定收敛。

▲ 图3. HRM 与 TRM 的训练流程对比。HRM 需要额外一次前向计算以获得 “继续损失”， TRM 的轻量 ACT 则省去该步骤。

从结构到训练策略，TRM 的设计逻辑始终围绕一个核心原则：让浅层网络安全地模拟深层推理。深监督提供逐步修正的通道，EMA 抑制波动，轻量化 ACT 控制开销。最终，一个仅 7 M 参数、两层的小模型，能够稳定展开 16 步递归而不崩溃。

这种“以稳制深”的范式，为后续研究提供了重要启示：推理模型的能力不必依赖堆叠深度，而可由递归结构与稳态训练共同塑造。

小模型的非常规胜利

Sudoku-Extreme：深监督撑起“深推理”

在 Sudoku-Extreme 任务上，TRM 在几乎所有“等有效深度”设置下都超越 HRM。当深度 42 （T=3,n=6）时，TRM 测试准确率 87.4%，而 HRM 仅 61.6%。差距来自结构与稳定性的改进，而非规模。

▲ 表1. Sudoku-Extreme 等有效深度实验。TRM 在所有可运行深度下均优于 HRM，显存占用更低。

TRM 的单网络结构减少了一半前向计算，但在稳定性和准确率上却全面领先，说明深监督与 EMA 确实替代了堆叠带来的复杂度。

Maze-Hard：长程依赖中自注意力取胜

任务换成 30×30 迷宫后，递归需处理更长的依赖。此时 TRM-Att（7 M）明显优于 MLP 版本（85.3% 对 74.5%）。这说明递归机制并非单一结构特性，而能与注意力架构良好结合。固定规则的 Sudoku 更适合 MLP；动态拓扑的 Maze 更依赖注意力的全局交互。

▲ 表2. Puzzle 任务（Sudoku 与 Maze）。TRM-MLP 适合短上下文，TRM-Att 在长程交互中更强。

ARC-AGI-1/2：7M模型的非常规胜利

真正引爆话题的是 ARC-AGI 结果。在两次作答的标准评测口径下，TRM-Att (7 M) 超越了 DeepSeek-R1、Gemini 2.5 Pro 和 o3-mini-high 等通用大模型。虽然仍不及 Grok-4-thinking 这类特化模型，但其规模仅为对方的万分之一。

TRM 无需强化学习、无需外部工具，只靠自身递归与深监督完成自我修正。这使得它在计算成本几乎可忽略的情况下，展现出与顶级模型竞争的推理力。

▲ 表3. ARC-AGI-1/2 结果。图注：7 M 模型 TRM-Att 超越多数通用 LLM，验证递归结构的高效性。

从堆叠到递归：推理结构的新基线

TRM 的研究价值，不在于以小博大本身，而在于提供了一种可验证的替代思路：推理能力的提升可以通过结构递归与稳定优化实现，而不必依赖更大的模型规模或更多的训练算力。

在这项工作中，作者以极少的参数构建出一个具备多步推理能力的系统，验证了时间维度的递归能够在功能上部分替代空间维度的堆叠，并以更低的资源消耗达到相似甚至更优的效果。

从机制层面看，TRM 的核心贡献在于对递归训练稳定性的系统性解决：

深监督提供了跨步梯度信号，使模型能够在较长的递归链上保持可训练性；
EMA 抑制了小样本条件下的震荡，保证权重更新的连续性；
轻量化 ACT 则在控制计算预算的同时维持了训练效率。

这些要素共同构成了一个可复现的技术框架，使“深推理”首次能够在轻量网络上被稳定实现。

工程上，TRM 提示我们，性能提升并非只能依赖参数扩张。在资源受限或专用任务场景下，递归结构与稳态优化策略可能成为一条更具成本效益的途径。这一思路不仅适用于小模型的推理任务，也为更复杂系统的多步决策与反思机制提供了可行模板。

从更长远的研究视角看，TRM 的出现标志着推理模型设计从“深层堆叠”向“递归自校正”转变的趋势。它不否定大模型的重要性，而是为智能系统的未来结构提供了另一种可能：通过循环、稳定和分步优化的方式，在有限规模下实现持续的推理改进。

参考文献

[1] Wang, G., Li, J., Sun, Y., Chen, X., Liu, C., Wu, Y., Lu, M., Song, S., and Yadkori, Y. A. Hierarchical reasoning model. arXiv preprint arXiv:2506.21734, 2025.

更多阅读