动态列表

  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道

无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠

原创 让你更懂AI的 2025-10-08 23:34 北京

无大算力、无RLHF,7M小模型靠递归结构跑出推理反转。

在所有人都以为智能等同于规模的时代,三星研究团队用一个仅 7M 参数的微型神经网络,递归式地“先提答案、再反思改进”,在复杂推理基准 ARC-AGI 上击败了包括 DeepSeek-R1、Gemini 2.5 Pro、o3-mini 在内的多款大模型。这不是一次偶然的实验,而是一场对“智能构型”的重新发问。

在推理能力的竞赛中,我们早已习惯把“强大”与“大模型”画上等号。无论是 GPT-4、Gemini,还是 DeepSeek-R1,它们的进步几乎都来自参数量与算力的线性叠加。

但三星研究团队的最新工作——Tiny Recursion Model(TRM)却反其道而行:仅用 7M 参数、两层网络结构,就在被视为“智能极限测试”的 ARC-AGI-1/2 上击败了多款超大模型。

这个结果让人不得不重新思考“智能的尺度”。一个小到能在单卡 GPU 上运行的网络,凭什么在复杂推理任务上超越上千亿参数的系统?

论文的回答非常直接:靠递归思考,而不是算力暴力。TRM 的核心并不是预测句子,而是学会“推理—反思—修正”的循环。模型先生成一个候选答案,再利用内部的隐变量结构 z 对答案进行复盘与调整,整个过程可反复进行十余轮。

这种机制相当于在单一网络中嵌入了“推理回路”:每次迭代都能更新自己的思考轨迹。它不像传统 LLM 那样“一次输出定乾坤”,而是在每次自我修正中不断靠近更合理的结论。

换句话说,TRM 让“小模型”第一次具备了“再思考”的能力。它展示了一种被大型模型浪潮掩盖的事实:智能的增长,不只是参数的堆叠,也可以来自思维结构的递归。

论文标题:

Less is More: Recursive Reasoning with Tiny Networks

论文链接:

https://arxiv.org/pdf/2510.04871

代码链接:

https://github.com/SamsungSAILMontreal/TinyRecursiveModels

研究背景

近年的推理增强主要走两条路线:Chain-of-Thought(CoT)通过显式中间步骤提升可解释性,Test-Time Compute(TTC)在测试阶段追加采样与重打分来换取更高精度。

二者确有收益,但也带来高成本对高质量推理轨迹的依赖,以及推理链本身易偏误的问题;在更抽象的 ARC-AGI 场景,尤其是难度更高的 ARC-AGI-2,通用大模型仍然吃力。

HRM(Hierarchical Reasoning Model)曾尝试用双网络、不同频率的递归叠加深监督()与 ACT,以较小显存逼近“极深”推理。然而,其固定点 + 一步梯度近似的前提在实际设定下并不稳妥,复现与理解成本偏高;更重要的是,后续分析显示主要收益多来自深监督本身,而非层内的“分层递归”。

TRM(Tiny Recursion Model)选择了一条“更薄”的路径:去层次化、保留最小闭环。它将信息拆分为“答案 y 与推理态 z”,在每个监督步里先更新 z 再改写 y,把“深度”转移到时间维度的递归中。这样既保留了逐步自校正的能力,又避免了复杂前提与额外开销,为后文的方法与消融铺垫了清晰的起点。

TRM 的递归总览——在每个监督步内先对潜在推理态 递归若干步,再据此更新答案 ,最多执行 ;以极少参数实现答案的逐步改进与过拟合抑制。

图1. TRM 的“先 z 后 y”最小闭环

接下来,我们来看 TRM 在结构层面是如何把“层次推理”压缩成一个能自我循环的最小递归回路。

最小递归的思考结构

2.1 从HRM的分层假设到TRM的最小闭环

本文的核心洞见是:推理不一定依赖深层结构,而可以用时间维度的多步递归实现“深思”。在 Tiny Recursion Model (TRM) 中,作者重新审视了其前作 HRM (Hierarchical Reasoning Model) 的核心假设,并在此基础上提出了一个参数极少、结构极简但具备递归自校正能力的方案。

HRM [1] 依赖双潜变量 表示“快速”与“慢速”推理通路,它们在理论上应收敛到固定点:

这一定义使模型在反向传播时可通过“一步梯度近似”节省显存;然而作者指出,在实际设定 (T=2, n=2) 下该固定点条件难以满足,训练过程往往出现震荡与不稳定。

为此,TRM 放弃了这种层次化的假设,回到最小可行单元——输入 x、当前答案 y 与潜在推理态 z。在每个监督步中,模型执行两次更新:

1. 调用 update_z(x, y_t, z_t) 对推理态 z 进行若干次递归更新;

2. 再调用 update_y(x, z_{t+1}) 用新的 z 修正当前答案 y。

换言之,模型不再依赖双网络或多频率循环,而是在同一网络中完成“推理—反思—修正”的两阶段操作。每个监督步的输出会作为下一步输入,从而在时间维度上展开最多 16 次递归()。

最后,预测答案通过输出头读取:

其中 在 TRM 语境下表示当前答案的嵌入。

图2. TRM 伪代码。模型在每个监督步内依次执行 update_z 与 update_y,在时间维度上展开多轮自校正循环。

2.2 等效深度:以时间递归取代层级堆叠

由于 TRM 不再通过多层结构制造“深度”,作者定义了一个统一的衡量指标——有效深度(effective depth)。它同时考虑外层循环次数 T、每步内部递归步数 n 以及网络层数 ,用于确保 TRM 与 HRM 在等深度条件下对比公平。

论文中以文字形式说明:当 T=3, n=6 时,约等于 42 层等效深度。在这一条件下,TRM 在 Sudoku-Extreme 与 Maze-Hard 任务上均显著优于 HRM,显示“深度来自递归而非堆叠”的假设成立。

作者进一步指出,这种深度等效的定义允许以时间递归代替空间堆叠:一个两层浅网络,只要拥有足够的递归步与深监督,就能在功能上接近几十层的深模型。

3. 训练稳定性:深监督、EMA与轻量化ACT

递归结构虽紧凑,但易出现梯度发散。为保证稳定性,作者设计了三项关键机制——这三者的组合构成了 TRM 的训练支撑体系。

深监督(Deep Supervision):每个递归步都输出中间监督信号,并参与损失累积。这样能让梯度从多层次路径传播,显著缓解递归展开造成的梯度消失。

轻量化 ACT(Adaptive Computation Time):相比 HRM 的 ACT,TRM 去除了“继续损失(continue loss)”,仅保留是否继续的二元决策,避免了每步两次前向计算。实验显示,这一修改几乎不损伤性能,却使训练成本减半。

EMA(Exponential Moving Average):在小样本任务中,权重更新容易震荡。TRM 采用 EMA (系数 0.999) 平滑参数轨迹,带来显著的泛化提升与稳定收敛。

图3. HRM 与 TRM 的训练流程对比。HRM 需要额外一次前向计算以获得 “继续损失”, TRM 的轻量 ACT 则省去该步骤。

从结构到训练策略,TRM 的设计逻辑始终围绕一个核心原则:让浅层网络安全地模拟深层推理。深监督提供逐步修正的通道,EMA 抑制波动,轻量化 ACT 控制开销。最终,一个仅 7 M 参数、两层的小模型,能够稳定展开 16 步递归而不崩溃。

这种“以稳制深”的范式,为后续研究提供了重要启示:推理模型的能力不必依赖堆叠深度,而可由递归结构与稳态训练共同塑造。

小模型的非常规胜利

Sudoku-Extreme:深监督撑起“深推理”

在 Sudoku-Extreme 任务上,TRM 在几乎所有“等有效深度”设置下都超越 HRM。当深度 42 (T=3,n=6)时,TRM 测试准确率 87.4%,而 HRM 仅 61.6%。差距来自结构与稳定性的改进,而非规模。

▲ 表1. Sudoku-Extreme 等有效深度实验。TRM 在所有可运行深度下均优于 HRM,显存占用更低。

TRM 的单网络结构减少了一半前向计算,但在稳定性和准确率上却全面领先,说明深监督与 EMA 确实替代了堆叠带来的复杂度。

Maze-Hard:长程依赖中自注意力取胜

任务换成 30×30 迷宫后,递归需处理更长的依赖。此时 TRM-Att(7 M)明显优于 MLP 版本(85.3% 对 74.5%)。这说明递归机制并非单一结构特性,而能与注意力架构良好结合。固定规则的 Sudoku 更适合 MLP;动态拓扑的 Maze 更依赖注意力的全局交互。

▲ 表2. Puzzle 任务(Sudoku 与 Maze)。TRM-MLP 适合短上下文,TRM-Att 在长程交互中更强。

ARC-AGI-1/2:7M模型的非常规胜利

真正引爆话题的是 ARC-AGI 结果。在两次作答的标准评测口径下,TRM-Att (7 M) 超越了 DeepSeek-R1、Gemini 2.5 Pro 和 o3-mini-high 等通用大模型。虽然仍不及 Grok-4-thinking 这类特化模型,但其规模仅为对方的万分之一

TRM 无需强化学习、无需外部工具,只靠自身递归与深监督完成自我修正。这使得它在计算成本几乎可忽略的情况下,展现出与顶级模型竞争的推理力。

▲ 表3. ARC-AGI-1/2 结果。 图注:7 M 模型 TRM-Att 超越多数通用 LLM,验证递归结构的高效性。

从堆叠到递归:推理结构的新基线

TRM 的研究价值,不在于以小博大本身,而在于提供了一种可验证的替代思路:推理能力的提升可以通过结构递归与稳定优化实现,而不必依赖更大的模型规模或更多的训练算力。

在这项工作中,作者以极少的参数构建出一个具备多步推理能力的系统,验证了时间维度的递归能够在功能上部分替代空间维度的堆叠,并以更低的资源消耗达到相似甚至更优的效果。

从机制层面看,TRM 的核心贡献在于对递归训练稳定性的系统性解决:

  • 深监督提供了跨步梯度信号,使模型能够在较长的递归链上保持可训练性;

  • EMA 抑制了小样本条件下的震荡,保证权重更新的连续性;

  • 轻量化 ACT 则在控制计算预算的同时维持了训练效率。

这些要素共同构成了一个可复现的技术框架,使“深推理”首次能够在轻量网络上被稳定实现。

工程上,TRM 提示我们,性能提升并非只能依赖参数扩张。在资源受限或专用任务场景下,递归结构与稳态优化策略可能成为一条更具成本效益的途径。这一思路不仅适用于小模型的推理任务,也为更复杂系统的多步决策与反思机制提供了可行模板。

从更长远的研究视角看,TRM 的出现标志着推理模型设计从“深层堆叠”向“递归自校正”转变的趋势。它不否定大模型的重要性,而是为智能系统的未来结构提供了另一种可能:通过循环、稳定和分步优化的方式,在有限规模下实现持续的推理改进。

图片

参考文献

图片

[1] Wang, G., Li, J., Sun, Y., Chen, X., Liu, C., Wu, Y., Lu, M., Song, S., and Yadkori, Y. A. Hierarchical reasoning model. arXiv preprint arXiv:2506.21734, 2025.

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们