ToolsAi

让你更懂AI的 2025-10-05 20:12 北京

在等算力视角下，谁更贴近缩放前沿？

近三十年前，Sepp Hochreiter 与 Jürgen Schmidhuber 提出 LSTM，彻底改变了序列建模的走向。如今，Hochreiter 团队将目光投向大模型时代最关键的问题——Scaling Laws。

在 2024 年提出 xLSTM（Extended LSTM）架构之后，他们进一步展开了系统性的规模化研究，探讨这种线性时间复杂度的循环模型，能否在相同算力下与 Transformer 正面竞争：谁的损失更低，谁的推理更快，谁能在长上下文中保持稳定？

把记忆型架构放回同算力口径下比较后，「尺度」被更具体地落在成本—效果上。

论文标题：

xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity

论文链接：

https://arxiv.org/pdf/2510.02228

代码&数据集链接：

https://github.com/NX-AI/xlstm_scaling_laws

当“注意力”遇到“线性时间”

自注意力的两难

Transformer 靠全局注意力拿到了强表征，但代价很直白：prefill 对上下文长度 T 的开销近似二次增长；生成阶段里 KV/状态的带宽与容量成了吞吐上限。上下文从 2k 拉到 8k、16k，这笔“长度税”会按平方级往上跳。

xLSTM的取舍

xLSTM 并非“复古”，而是将序列混合交由 mLSTM 的递归动力学完成，使复杂度随 T 线性增长；其余模块遵循现代训练范式（更稳的归一化、更深的堆叠、配合前馈 MLP 与按维并行）。

分歧在混合方式：注意力 vs. 递归。由此在训练与推理两端，长上下文的边际成本更可控。

为什么从Scaling Laws入手？

今天的核心问题不是“用哪种模型”，而是“给定算力，怎样最省”。

为此，作者没有堆一串 benchmark，而是做了一套可复用的规模化实验学：两类架构（Transformer/xLSTM）、两种训练配置（IsoFLOP/Token-Param）、三档上下文长度，共 672 次训练，模型规模 80M→7B，预算 2.8×10^18→8.5×10^22 FLOPs，训练 token 2B→2T。

接着通过参数—数据—损失曲面 L(N,D) 与 IsoFLOP 等算力分析，量化“参数—数据—算力”的关系，便于在固定预算下讨论最优配比与可达边界。

在同算力的口径下，比较“谁更接近前沿”才有意义；具体对比与完整读图见实验结果第 1 节（Fig. 4）。

论文方法

下面进入具体做法。要回答“规模化到底值不值”，第一步是把代价和收益放到同一张坐标纸上：用模型参数规模 N 和训练 token 数 D 去解释验证损失的变化。先建立 L(N,D) 的统一表述，随后在等算力约束下讨论最优的规模与数据，再把推理延迟拆成计算与带宽两部分。

验证损失的参数–数据曲面 L(N,D)

作者将验证损失表示为模型规模 N 与训练 token 数 D 的函数，并用下式拟合整体趋势：

E 可看作“地板”；N 与 D 各自带来下降项；γ 刻画两条路径的耦合形态。好处是把“扩参/加数据”放到同一张曲面上，既能看最优附近，也能在“小模型＋大数据”的区域保持稳定判断。

▲ 图1. 一张曲面看清扩参/加数据的边际收益

等算力约束下的最优规模与数据

算力预算记为 H。沿 C(N,D)=H 的等算力轨迹，先在每条轨迹上定位极小值，再将这些最优点跨预算拟合为幂律：

这两条“增长律”把“预算翻倍时，参数与数据各涨多少”写成明确规则，可据此推导预算—规模—数据的配比规则。

▲ 图2. 等算力下的最优规模如何随预算变化

推理时间的计算项与带宽项

推理阶段拆成两部分：prefill 近似 compute-bound，逐步生成近似 memory-bound。论文用下式拟合：

具体曲线与对比见实验结果·第 4 节（Fig. 6）。

实验结果

我们把对比拉回到“成本—效果”的坐标纸上来谈：在相同预算下谁更省、当模型较小但数据充足时是否依旧稳定、上下文拉长后最优规模会往哪里移动，以及推理阶段究竟受算力还是带宽所限。

与其盯着单点成绩，不如看这些趋势在多档预算、不同配置和长短上下文之间是否一致、可复现、可解释——只有这样，结论才具备工程可迁移性。

算力—损失前沿对比

在“预算—损失”平面上，横向看同 FLOPs 谁的损失更低，纵向看同损失谁的 FLOPs 更少。xLSTM 在较宽预算区间更靠近左下角，更接近帕累托前沿。

▲ 图3. 同预算看损失、同损失看预算，谁更接近前沿

此处我们应该关注“每个 FLOP 是否更值钱”，而不只是“谁堆得更高”。

过训练区的缩放稳定性

把 Token/Param 比拉到高档位，观察“小模型＋大数据”是否会“拐崩”。结果是：多档位上两类架构的“损失—预算”曲线近似平行下降，幂律指数稳定；差异主要在系数项。这意味着只要优化与数据工程到位，小而密可以长期吃到增益。

▲ 图4. 高token/param档位下仍保持平行幂律

▲ 表1. 幂律指数在不同Token/Param档位的统计

上下文长度对最优规模的影响

上下文从 2k 拉到 8k、16k：注意力的二次项更快侵占预算，Transformer 的最优规模下滑更明显；xLSTM 因线性时间的关系，下降更温和。这与两者的复杂度结构一致，并会同时影响训练成本与推理延迟。

▲ 图5. 上下文越长，谁的最优规模更抗压

推理延迟与硬件视角

用式 (4) 定位瓶颈：prefill 端优先把拉近硬件上限（编译、算子融合、批排）；生成端盯住 KV/状态的访存路径（压缩、分页、流水），提升的有效利用。到 16k 上下文时，xLSTM 的 TTFT 与 step-time 优势清晰。

▲ 图6. 上下文拉长后，延迟曲线的差异

▲ 表2. 硬件“上限表”速览

图注：峰值 FLOPs、内存带宽、算术强度，帮助快速定位“算力项/带宽项”的上限与缺口。

当尺度成了主语，记忆路线重新入场

在我看来，这篇工作的关键不在“换个结构”，而在换了坐标系：用成本—效果的视角检验缩放规律。在线性时间的前提下，xLSTM 在等算力前沿、长上下文与推理曲线上的一致性，更像是规律层面的结论而非单点胜负。

这篇工作把“模型之争”从结构口味拉回到成本—效果的根坐标：在同样的训练算力下，谁更接近前沿；在长上下文里，谁的曲线更平缓；在过训练区，谁的缩放更稳定。

作者并没有用新的花哨模块来取胜，而是用三件可核对的工具把尺度问题说清楚：一张的损失曲面，回答“扩参/加数据是否还值”；一对等算力下的最优幂律，回答“预算翻倍该往哪里加”；一个把推理拆为“算力项＋带宽项”的时间模型，回答“延迟曲线为什么这样”。

在这套坐标里，在线性时间的前提下，xLSTM 在等算力前沿、长上下文与推理时延上呈现出一致的趋势性优势；这更像是缩放规律层面的结果，而不是单点榜单的起伏。

更有意思的是，“过训练区的平行幂律”把一个常被误解的问题澄清了：当 Token/Param 比很高时，曲线并未失真，指数仍然稳定，差别主要落在系数。这意味着“把数据当作第一资源”的做法并不是某个阶段的权宜之计，而是一条可以被定量描述、可复现的缩放路径。

与此同时，上下文长度被纳入了一等变量的地位：当增长，注意力的二次项会直接改写预算的可用形状，最优规模随之下滑；线性时间的记忆架构则把算力留给真正提升表达力的部分。这不是“情怀式复古”，而是把记忆动力学与现代训练范式在尺度层面上重新拼接。

当然，论文也给出了边界。的曲面拟合在最优附近与常见过训练区内表现稳健，但跨分布迁移或走到极端配置时仍需重新校准；推理端的、带有系统与硬件的印记，不能把系统差异误读成架构差异；而“前沿更近”并不自动等于“任务全面更强”，把验证损失与下游表现打通仍是后续工作。

换句话说，这篇文章给出的是尺度—成本意义上的强证据链，而不是所有维度的终局判断。

把这些线索合起来看，Hochreiter 团队的贡献并不在于给出一个“新的万能架构”，而在于调整了观察问题的主语：当我们把预算、长度与时间拆开看，线性时间的记忆模型就不再是“过去的技术”，而成为一种在特定资源与需求组合下可证明更划算的选择。

今天的大模型讨论里，争论常常停留在“注意力是否万能”的层面；这篇论文提醒我们，尺度才是主语。在这个主语之下，xLSTM 展现出的那条更线性的曲线，至少为“注意力之外的路径”提供了严肃、可复现的证据。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

LSTM之父再出手！xLSTM挑战Transformer：一场关于Scaling Laws的正面交锋

类别

资源

联系我们