ToolsAi

原创让你更懂AI的 2025-10-11 18:10 北京

当并行不再是全部：递归完备性揭示时间维度的真正深度。

自 Attention 统治深度学习以来，我们获得了惊人的速度与可扩展性，却似乎失去了另一种更本质的能力——在时间中递归地思考、积累与演化。当速度压倒深度，我们真的理解了“智能”的含义吗？

自 2018 年以来，注意力机制几乎定义了大模型时代的“并行范式”。但当任务跨越很长的时间地平线，尤其需要在环境交互中持续整合隐含状态时，这种完全可并行的“时间混合”是否真的足够？

自从 Transformer 架构提出以来，注意力机制（attention mechanism）一直是深度学习的核心驱动力。它带来了卓越的并行性与上下文建模能力，使神经网络能够以恒定计算深度处理任意长度的输入序列。

然而，这种“非递归（non-recurrent）”的并行范式也有代价：模型在时间维度上失去了逐步推理的能力。

近日，一篇引发广泛讨论的单人作者论文《Recurrence-Complete Frame-based Action Models》提出：Transformer 的成功或许建立在对“时间深度”的牺牲之上。

作者提出了“递归完备（recurrence-complete）”与“真实深度（true depth）”两大核心概念，证明了前向或反向完全可并行的模型族在理论上无法覆盖一类关键的长时序问题，并以两个诊断任务（FRJT 与 Withheld Maze）实证展示了这种限制。

更重要的是，论文构建了帧动作模型（Frame-based Action Model, FBAM），并揭示了一条不同于传统参数扩展的“序列长度缩放律”：在参数量固定的前提下，训练损失随序列长度呈幂律下降，而更长序列带来的线性墙钟成本最终被更快的收敛速度“摊薄”并反超。

这不只是对 Transformer 的修正，而是一种关于“深度定义”的重思。

论文标题：

Recurrence-Complete Frame-based Action Models

论文链接：

https://arxiv.org/pdf/2510.06828

从并行的胜利，到递归的缺失

Transformer 的成功源于一个核心假设：序列可以整体并行建模。多头注意力机制使每个 token 能直接访问序列中任意位置的信息，大幅提升了训练效率。但这一设计本质上将“时间”折叠为静态维度，模型无法像递归网络那样逐步构建内部状态。

LSTM 通过门控机制解决了梯度消散问题，使模型能在时间上累积信息：

其中为时刻的隐藏状态，依赖当前输入及前一状态。每增加一个时间步，相当于多一层非线性变换；而 Transformer 的时间深度是常数，计算路径不会随序列长度增加而增长。

论文据此提出命题：缺乏时间深度的网络，在理论上无法表达某些顺序决策任务。这种表达能力的限制即非递归完备性（lack of recurrence completeness）。

递归完备性：深度的重新定义

作者形式化定义了递归完备性。若模型满足：

其中为非线性函数，并可表示任意复杂的历史依赖，则模型被称为递归完备（recurrence-complete）。其真实计算深度应与序列长度成正比：

由此得出一个重要推论：若模型的前向或反向传播可以被完全并行化，它必然不具备递归完备性。

这意味着 Transformer、Mamba 等所有非显式递归架构，都属于“常深度电路（constant-depth circuits）”。它们的计算复杂度虽然可控，但表达力在理论上受限。

输入聚合临界性（Input Aggregation Criticality）

为了刻画这种限制，作者引入了“输入聚合临界性”的概念：当任务需要的顺序推理步数超过网络层数的某个常数倍时，性能将出现断崖式下降：

这一定律表明：对于需要在时间上聚合状态的任务（如程序执行、路径规划或交互式推理），常深度的注意力模型会在某个序列长度后出现性能崩塌。而递归网络由于时间深度与输入长度成正比，不会触发这种“表达力饱和”。

从理论到结构：帧动作模型（FBAM）

为证明理论的有效性，作者提出了一种全新的训练范式——帧动作模型（Frame-based Action Model）。与传统语言模型直接预测下一个 token 不同，FBAM 在每一步预测“动作（action）”，由环境反馈生成下一帧（frame），从而形成一个动态的交互式训练循环。

在具体实现上，FBAM 由两部分组成：

1. Frame Head（帧头）：使用 Transformer 结构处理单帧内容，通过自注意力机制提取帧内特征；

2. Integrator（整合器）：使用 LSTM 架构在帧间累积状态，实现跨时间的递归整合。

两者共同构成了一个“帧内并行、帧间递归”的混合模型。这一设计保留了注意力机制在局部结构建模上的优势，同时恢复了时间维度上的深度。

▲ 图1. Frame Head 与 Integrator 结构示意。帧内使用自注意力并行聚合，帧间通过 LSTM 进行状态整合。

时间与显存：O(1) 内存复杂度

长序列训练的最大障碍是显存消耗。为此，作者提出两项关键的系统优化：

1. 激活复算（Recomputation）：在反向传播时不保存帧头激活，而是重新计算。

2. 状态分页（Paging）：在计算梯度时，将 LSTM 的隐藏状态分块转移到主机内存。

这种“计算换存储”的方式，使得训练的显存复杂度近似 O(1)，即便在单卡上也可支持超长序列的全反传。

时间深度的Scaling Law

论文发现了一条新的序列长度缩放律（Scaling Law by Sequence Length）。在参数固定条件下，GitHub 代码编辑任务的训练损失随序列长度 L 呈幂律下降：

其中随训练步增长而趋于饱和（极限约为）。这意味着：更长的序列对应更深的时间网络，并带来系统性提升。与此相配套，原论文还给出了“不同序列长度在相同步数下的收敛对比”，可视化为下图所示。

▲ 图2. 不同序列长度的训练损失随“步数”的变化：序列更长的曲线在相同步数下收敛更快，随后实验以此为基础讨论等时（墙钟）对齐。

墙钟摊薄效应（Wall-time Amortization）

虽然更长序列使单步耗时线性上升，但这种代价可被更快的收敛“摊薄”。在等时比较下，论文给出了：

随着训练时间 t 推进，长序列曲线会“追上并反超”短序列，在相同墙钟下取得更低损失。

▲ 图3. Wall-time amortization（损失随墙钟时间变化）。长序列训练初期较慢，但随着时间累积，损失曲线“赶上并超越”短序列；原文采用对数坐标以突出趋势。

这一结果表明：序列长度不仅是成本，更是容量的延伸维度——Scaling Law 不只存在于参数空间，也存在于时间维度。

实验验证：递归的必要性

论文通过两类任务验证递归结构优势：一是合成控制流任务（Forward Reference Jump Task，FRJT），二是部分可观测任务（Withheld Maze）。

FRJT：顺序依赖的极限

FRJT 模拟程序执行的跳转逻辑，要求模型依据前一步结果决定下一步执行位置。Transformer 难以处理这种严格依赖控制流的任务。

实验显示，Transformer 在深度 8 时验证准确率 ≈ 0.68，而单层 LSTM 在深度 32 仍保持 ≈ 0.86。

▲ 表1. FRJT 任务结果：Transformer 出现深度退化，LSTM 保持稳定泛化。

Withheld Maze：部分可观测推理

该任务模拟部分观测迷宫，要求模型依据历史恢复当前状态。Transformer 在反馈缺失 20% 时准确率降至 ≈ 0.61，而 LSTM 几乎无损（≈ 0.99）。

▲ 表2. Withheld Maze 任务结果：递归模型在部分观测环境下表现更稳健。

结果验证了核心假设：当任务需跨时间累积信息时，常深度模型会触发“聚合临界”，而递归模型深度随时间自动扩展。

结语：深度的另一种形式

这篇论文的贡献在于重新定义“深度”。过去我们以参数量与层数衡量模型容量，而作者证明：若模型在时间维无法递归更新，其表达能力存在结构性约束。Attention 带来并行性优势，但在理论表达范围上仍有局限。

FBAM 提供了新的折中方案：帧内保持自注意力的高效聚合，帧间通过递归积累时间深度。这为未来智能体训练提供启示——在长期状态追踪或环境交互任务中，纯 Attention 结构或许并非最优。

论文的 Scaling Law 结果进一步指出：模型能力可沿“时间轴”而非仅“参数轴”扩展。研究者因此可在固定显存预算下，通过延长序列与复算策略获得相近性能收益。这为长上下文训练、持续学习与轻量化模型开辟了新的路径。

总体而言，FBAM 并非又一个架构技巧，而是一种关于“深度本质”的反思。Transformer 的成功源自极致并行，而其时间深度被压缩为常数；FBAM 试图恢复被遗忘的维度——通过递归完备性，使模型计算图在时间上重新变“深”。

“Attention is NOT all you need” 并非否定，而是补全：注意力机制赋予模型广度，递归机制赋予模型深度。当深度重新流入时间，我们或许会看到另一种形式的 Scaling——一种不依赖参数堆叠，而源自序列生长的智能。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

Attention is NOT All You Need：让“深度”重新流入时间，而非堆叠在参数之上

自 Attention 统治深度学习以来，我们获得了惊人的速度与可扩展性，却似乎失去了另一种更本质的能力——在时间中递归地思考、积累与演化。当速度压倒深度，我们真的理解了“智能”的含义吗？

类别

资源

联系我们