动态列表

  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道
  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场
  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道

LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋

让你更懂AI的 2025-10-05 20:12 北京

在等算力视角下,谁更贴近缩放前沿?

近三十年前,Sepp Hochreiter 与 Jürgen Schmidhuber 提出 LSTM,彻底改变了序列建模的走向。如今,Hochreiter 团队将目光投向大模型时代最关键的问题——Scaling Laws

在 2024 年提出 xLSTM(Extended LSTM)架构之后,他们进一步展开了系统性的规模化研究,探讨这种线性时间复杂度的循环模型,能否在相同算力下与 Transformer 正面竞争:谁的损失更低,谁的推理更快,谁能在长上下文中保持稳定?

把记忆型架构放回同算力口径下比较后,「尺度」被更具体地落在成本—效果上。

论文标题:

xLSTM Scaling Laws: Competitive Performance with Linear Time-Complexity

论文链接:

https://arxiv.org/pdf/2510.02228

代码&数据集链接:

https://github.com/NX-AI/xlstm_scaling_laws

当“注意力”遇到“线性时间”

自注意力的两难

Transformer 靠全局注意力拿到了强表征,但代价很直白:prefill 对上下文长度 T 的开销近似二次增长;生成阶段KV/状态的带宽与容量成了吞吐上限。上下文从 2k 拉到 8k、16k,这笔“长度税”会按平方级往上跳。

xLSTM的取舍

xLSTM 并非“复古”,而是将序列混合交由 mLSTM 的递归动力学完成,使复杂度随 T 线性增长;其余模块遵循现代训练范式(更稳的归一化、更深的堆叠、配合前馈 MLP 与按维并行)。

分歧在混合方式:注意力 vs. 递归。由此在训练与推理两端,长上下文的边际成本更可控。

为什么从Scaling Laws入手?

今天的核心问题不是“用哪种模型”,而是给定算力,怎样最省

为此,作者没有堆一串 benchmark,而是做了一套可复用的规模化实验学:两类架构(Transformer/xLSTM)、两种训练配置(IsoFLOP/Token-Param)、三档上下文长度,共 672 次训练,模型规模 80M→7B,预算 2.8×10^18→8.5×10^22 FLOPs,训练 token 2B→2T

接着通过参数—数据—损失曲面 L(N,D) 与 IsoFLOP 等算力分析,量化“参数—数据—算力”的关系,便于在固定预算下讨论最优配比与可达边界。

在同算力的口径下,比较“谁更接近前沿”才有意义;具体对比与完整读图见实验结果第 1 节(Fig. 4)。

论文方法

下面进入具体做法。要回答“规模化到底值不值”,第一步是把代价和收益放到同一张坐标纸上:用模型参数规模 N 和训练 token 数 D 去解释验证损失的变化。先建立 L(N,D) 的统一表述,随后在等算力约束下讨论最优的规模与数据,再把推理延迟拆成计算与带宽两部分。

验证损失的参数–数据曲面 L(N,D)

作者将验证损失表示为模型规模 N 与训练 token 数 D 的函数,并用下式拟合整体趋势:

E 可看作“地板”;N 与 D 各自带来下降项;γ 刻画两条路径的耦合形态。好处是把“扩参/加数据”放到同一张曲面上,既能看最优附近,也能在“小模型+大数据”的区域保持稳定判断。

▲ 图1. 一张曲面看清扩参/加数据的边际收益

等算力约束下的最优规模与数据

算力预算记为 H。沿 C(N,D)=H 的等算力轨迹,先在每条轨迹上定位极小值,再将这些最优点跨预算拟合为幂律:

这两条“增长律”把“预算翻倍时,参数与数据各涨多少”写成明确规则,可据此推导预算—规模—数据的配比规则。

图2. 等算力下的最优规模如何随预算变化

推理时间的计算项与带宽项

推理阶段拆成两部分:prefill 近似 compute-bound,逐步生成近似 memory-bound。论文用下式拟合:

具体曲线与对比见实验结果·第 4 节(Fig. 6)。

实验结果

我们把对比拉回到“成本—效果”的坐标纸上来谈:在相同预算下谁更省、当模型较小但数据充足时是否依旧稳定、上下文拉长后最优规模会往哪里移动,以及推理阶段究竟受算力还是带宽所限。

与其盯着单点成绩,不如看这些趋势在多档预算、不同配置和长短上下文之间是否一致、可复现、可解释——只有这样,结论才具备工程可迁移性。

算力—损失前沿对比

在“预算—损失”平面上,横向看同 FLOPs 谁的损失更低,纵向看同损失谁的 FLOPs 更少。xLSTM 在较宽预算区间更靠近左下角,更接近帕累托前沿。

▲ 图3. 同预算看损失、同损失看预算,谁更接近前沿

此处我们应该关注“每个 FLOP 是否更值钱”,而不只是“谁堆得更高”。

过训练区的缩放稳定性

把 Token/Param 比拉到高档位,观察“小模型+大数据”是否会“拐崩”。结果是:多档位上两类架构的“损失—预算”曲线近似平行下降,幂律指数稳定;差异主要在系数项。这意味着只要优化与数据工程到位,小而密可以长期吃到增益。

▲ 图4. 高token/param档位下仍保持平行幂律

▲ 表1. 幂律指数在不同Token/Param档位的统计

上下文长度对最优规模的影响

上下文从 2k 拉到 8k、16k:注意力的二次项更快侵占预算,Transformer 的最优规模 下滑更明显;xLSTM 因线性时间的关系,下降更温和。这与两者的复杂度结构一致,并会同时影响训练成本与推理延迟。

▲ 图5. 上下文越长,谁的最优规模更抗压

推理延迟与硬件视角

用式 (4) 定位瓶颈:prefill 端优先把 拉近硬件上限(编译、算子融合、批排);生成端盯住 KV/状态的访存路径(压缩、分页、流水),提升 的有效利用。到 16k 上下文时,xLSTM 的 TTFT 与 step-time 优势清晰。

图6. 上下文拉长后,延迟曲线的差异

▲ 表2. 硬件“上限表”速览

图注:峰值 FLOPs、内存带宽、算术强度,帮助快速定位“算力项/带宽项”的上限与缺口。

当尺度成了主语,记忆路线重新入场

在我看来,这篇工作的关键不在“换个结构”,而在换了坐标系:用成本—效果的视角检验缩放规律。在线性时间的前提下,xLSTM 在等算力前沿、长上下文与推理曲线上的一致性,更像是规律层面的结论而非单点胜负。

这篇工作把“模型之争”从结构口味拉回到成本—效果的根坐标:在同样的训练算力下,谁更接近前沿;在长上下文里,谁的曲线更平缓;在过训练区,谁的缩放更稳定。

作者并没有用新的花哨模块来取胜,而是用三件可核对的工具把尺度问题说清楚:一张 的损失曲面,回答“扩参/加数据是否还值”;一对等算力下的最优幂律,回答“预算翻倍该往哪里加”;一个把推理拆为“算力项+带宽项”的时间模型,回答“延迟曲线为什么这样”。

在这套坐标里,在线性时间的前提下,xLSTM 在等算力前沿、长上下文与推理时延上呈现出一致的趋势性优势;这更像是缩放规律层面的结果,而不是单点榜单的起伏。

更有意思的是,“过训练区的平行幂律”把一个常被误解的问题澄清了:当 Token/Param 比很高时,曲线并未失真,指数仍然稳定,差别主要落在系数。这意味着“把数据当作第一资源”的做法并不是某个阶段的权宜之计,而是一条可以被定量描述、可复现的缩放路径。

与此同时,上下文长度被纳入了一等变量的地位:当 增长,注意力的二次项会直接改写预算的可用形状,最优规模随之下滑;线性时间的记忆架构则把算力留给真正提升表达力的部分。这不是“情怀式复古”,而是把记忆动力学与现代训练范式在尺度层面上重新拼接。

当然,论文也给出了边界。 的曲面拟合在最优附近与常见过训练区内表现稳健,但跨分布迁移或走到极端配置时仍需重新校准;推理端的 带有系统与硬件的印记,不能把系统差异误读成架构差异;而“前沿更近”并不自动等于“任务全面更强”,把验证损失与下游表现打通仍是后续工作。

换句话说,这篇文章给出的是尺度—成本意义上的强证据链,而不是所有维度的终局判断。

把这些线索合起来看,Hochreiter 团队的贡献并不在于给出一个“新的万能架构”,而在于调整了观察问题的主语:当我们把预算、长度与时间拆开看,线性时间的记忆模型就不再是“过去的技术”,而成为一种在特定资源与需求组合下可证明更划算的选择。

今天的大模型讨论里,争论常常停留在“注意力是否万能”的层面;这篇论文提醒我们,尺度才是主语。在这个主语之下,xLSTM 展现出的那条更线性的曲线,至少为“注意力之外的路径”提供了严肃、可复现的证据。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们