动态列表

  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控

Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上

原创 让你更懂AI的 2025-10-11 18:10 北京

当并行不再是全部:递归完备性揭示时间维度的真正深度。

自 Attention 统治深度学习以来,我们获得了惊人的速度与可扩展性,却似乎失去了另一种更本质的能力——在时间中递归地思考、积累与演化。当速度压倒深度,我们真的理解了“智能”的含义吗?

自 2018 年以来,注意力机制几乎定义了大模型时代的“并行范式”。但当任务跨越很长的时间地平线,尤其需要在环境交互中持续整合隐含状态时,这种完全可并行的“时间混合”是否真的足够?

自从 Transformer 架构提出以来,注意力机制(attention mechanism)一直是深度学习的核心驱动力。它带来了卓越的并行性与上下文建模能力,使神经网络能够以恒定计算深度处理任意长度的输入序列。

然而,这种“非递归(non-recurrent)”的并行范式也有代价:模型在时间维度上失去了逐步推理的能力。

近日,一篇引发广泛讨论的单人作者论文《Recurrence-Complete Frame-based Action Models》提出:Transformer 的成功或许建立在对“时间深度”的牺牲之上。

作者提出了“递归完备(recurrence-complete)”“真实深度(true depth)”两大核心概念,证明了前向或反向完全可并行的模型族在理论上无法覆盖一类关键的长时序问题,并以两个诊断任务(FRJT 与 Withheld Maze)实证展示了这种限制。

更重要的是,论文构建了帧动作模型(Frame-based Action Model, FBAM),并揭示了一条不同于传统参数扩展的“序列长度缩放律”:在参数量固定的前提下,训练损失随序列长度呈幂律下降,而更长序列带来的线性墙钟成本最终被更快的收敛速度“摊薄”并反超。

这不只是对 Transformer 的修正,而是一种关于“深度定义”的重思。

论文标题:

Recurrence-Complete Frame-based Action Models

论文链接:

https://arxiv.org/pdf/2510.06828

从并行的胜利,到递归的缺失

Transformer 的成功源于一个核心假设:序列可以整体并行建模。多头注意力机制使每个 token 能直接访问序列中任意位置的信息,大幅提升了训练效率。但这一设计本质上将“时间”折叠为静态维度,模型无法像递归网络那样逐步构建内部状态。

LSTM 通过门控机制解决了梯度消散问题,使模型能在时间上累积信息:

其中 为时刻 的隐藏状态,依赖当前输入 及前一状态 。每增加一个时间步,相当于多一层非线性变换;而 Transformer 的时间深度是常数,计算路径不会随序列长度增加而增长。

论文据此提出命题:缺乏时间深度的网络,在理论上无法表达某些顺序决策任务。这种表达能力的限制即非递归完备性(lack of recurrence completeness)。

递归完备性:深度的重新定义

作者形式化定义了递归完备性。若模型满足:

其中 为非线性函数,并可表示任意复杂的历史依赖,则模型被称为递归完备(recurrence-complete)。其真实计算深度 应与序列长度 成正比:

由此得出一个重要推论:若模型的前向或反向传播可以被完全并行化,它必然不具备递归完备性。

这意味着 Transformer、Mamba 等所有非显式递归架构,都属于“常深度电路(constant-depth circuits)”。它们的计算复杂度虽然可控,但表达力在理论上受限。

输入聚合临界性(Input Aggregation Criticality)

为了刻画这种限制,作者引入了“输入聚合临界性”的概念:当任务需要的顺序推理步数 超过网络层数 的某个常数倍时,性能将出现断崖式下降:

这一定律表明:对于需要在时间上聚合状态的任务(如程序执行、路径规划或交互式推理),常深度的注意力模型会在某个序列长度后出现性能崩塌。而递归网络由于时间深度与输入长度成正比,不会触发这种“表达力饱和”。

从理论到结构:帧动作模型(FBAM)

为证明理论的有效性,作者提出了一种全新的训练范式——帧动作模型(Frame-based Action Model)。与传统语言模型直接预测下一个 token 不同,FBAM 在每一步预测“动作(action)”,由环境反馈生成下一帧(frame),从而形成一个动态的交互式训练循环

在具体实现上,FBAM 由两部分组成:

1. Frame Head(帧头):使用 Transformer 结构处理单帧内容,通过自注意力机制提取帧内特征;

2. Integrator(整合器):使用 LSTM 架构在帧间累积状态,实现跨时间的递归整合。

两者共同构成了一个“帧内并行、帧间递归”的混合模型。这一设计保留了注意力机制在局部结构建模上的优势,同时恢复了时间维度上的深度。

图1. Frame Head 与 Integrator 结构示意。帧内使用自注意力并行聚合,帧间通过 LSTM 进行状态整合。

时间与显存:O(1) 内存复杂度

长序列训练的最大障碍是显存消耗。为此,作者提出两项关键的系统优化:

1. 激活复算(Recomputation):在反向传播时不保存帧头激活,而是重新计算。

2. 状态分页(Paging):在计算梯度时,将 LSTM 的隐藏状态分块转移到主机内存。

这种“计算换存储”的方式,使得训练的显存复杂度近似 O(1),即便在单卡上也可支持超长序列的全反传。

时间深度的Scaling Law

论文发现了一条新的序列长度缩放律(Scaling Law by Sequence Length)。在参数固定条件下,GitHub 代码编辑任务的训练损失随序列长度 L 呈幂律下降:

其中 随训练步 增长而趋于饱和(极限约为 )。这意味着:更长的序列对应更深的时间网络,并带来系统性提升。与此相配套,原论文还给出了“不同序列长度在相同步数下的收敛对比”,可视化为下图所示。

图2. 不同序列长度的训练损失随“步数”的变化:序列更长的曲线在相同步数下收敛更快,随后实验以此为基础讨论等时(墙钟)对齐。

墙钟摊薄效应(Wall-time Amortization)

虽然更长序列使单步耗时线性上升,但这种代价可被更快的收敛“摊薄”。在等时比较下,论文给出了:

随着训练时间 t 推进,长序列曲线会“追上并反超”短序列,在相同墙钟下取得更低损失。

图3. Wall-time amortization(损失随墙钟时间变化)。长序列训练初期较慢,但随着时间累积,损失曲线“赶上并超越”短序列;原文采用对数坐标以突出趋势。

这一结果表明:序列长度不仅是成本,更是容量的延伸维度——Scaling Law 不只存在于参数空间,也存在于时间维度。

图片

实验验证:递归的必要性

论文通过两类任务验证递归结构优势:一是合成控制流任务(Forward Reference Jump Task,FRJT), 二是部分可观测任务(Withheld Maze)。

FRJT:顺序依赖的极限

FRJT 模拟程序执行的跳转逻辑,要求模型依据前一步结果决定下一步执行位置。Transformer 难以处理这种严格依赖控制流的任务。

实验显示,Transformer 在深度 8 时验证准确率 ≈ 0.68,而单层 LSTM 在深度 32 仍保持 ≈ 0.86。

▲ 表1. FRJT 任务结果:Transformer 出现深度退化,LSTM 保持稳定泛化。

Withheld Maze:部分可观测推理

该任务模拟部分观测迷宫,要求模型依据历史恢复当前状态。Transformer 在反馈缺失 20% 时准确率降至 ≈ 0.61,而 LSTM 几乎无损(≈ 0.99)。

▲ 表2. Withheld Maze 任务结果:递归模型在部分观测环境下表现更稳健。

结果验证了核心假设:当任务需跨时间累积信息时,常深度模型会触发“聚合临界”,而递归模型深度随时间自动扩展。

图片

结语:深度的另一种形式

这篇论文的贡献在于重新定义“深度”。过去我们以参数量与层数衡量模型容量,而作者证明:若模型在时间维无法递归更新,其表达能力存在结构性约束。Attention 带来并行性优势,但在理论表达范围上仍有局限。

FBAM 提供了新的折中方案:帧内保持自注意力的高效聚合,帧间通过递归积累时间深度。这为未来智能体训练提供启示——在长期状态追踪或环境交互任务中,纯 Attention 结构或许并非最优。

论文的 Scaling Law 结果进一步指出:模型能力可沿“时间轴”而非仅“参数轴”扩展。研究者因此可在固定显存预算下,通过延长序列与复算策略获得相近性能收益。这为长上下文训练、持续学习与轻量化模型开辟了新的路径。

总体而言,FBAM 并非又一个架构技巧,而是一种关于“深度本质”的反思。Transformer 的成功源自极致并行,而其时间深度被压缩为常数;FBAM 试图恢复被遗忘的维度——通过递归完备性,使模型计算图在时间上重新变“深”。

“Attention is NOT all you need” 并非否定,而是补全:注意力机制赋予模型广度,递归机制赋予模型深度。当深度重新流入时间,我们或许会看到另一种形式的 Scaling——一种不依赖参数堆叠,而源自序列生长的智能。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们