动态列表

  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能

Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式

原创 让你更懂AI的 2025-10-12 17:11 北京

复值SSM × 广义梯形离散 × MIMO,线性模型的全面重构

ICLR 2026 投稿惊现 Mamba-3:一场从数值分析、复值状态到硬件算力的系统重构,线性模型的“效率—能力—质量”三线齐升。

在 ICLR 2026 的 OpenReview 上,一篇匿名投稿以 Mamba-3 为名,给出了建立在经典状态空间理论上的三项系统性改造:复值状态空间(等价数据依赖 RoPE)广义梯形离散(卷积化掩码)、以及 MIMO 化的状态更新(提升算术强度)

与此前追求参数简化、结构轻量的 Mamba-2 不同,Mamba-3 回到了对数值稳定性与状态表达力的根本追问——它用更高阶的离散化精度、更丰富的复值动态和更高密度的算术更新,让线性时序模型重新具备可解释、可扩展的物理一致性。

作者称其为一次“inference-first paradigm(推理优先范式)”的回归,意味着推理效率不再是附加优化目标,而是模型设计的起点。

实验证明,在语言建模、形式语言推理与长序列解码延迟三个关键维度上,Mamba-3 都显著前移了性能—效率的 Pareto 前沿,为“后 Transformer 时代的线性建模”描绘出了一个新的可能边界。

论文标题:

Mamba-3: Improved Sequence Modeling using State Space Principles

论文链接:

https://openreview.net/pdf?id=HwCvaJOiCj

研究背景

Transformer 的瓶颈众所周知:自注意力的二次计算和 KV-Cache 的线性增长,使得“高质量大模型 + 高频推理”的工业部署面临成本与延迟的双重压力。

Mamba 系列以线性时间复杂度为突破口,通过选择性状态空间(Selective SSM)将全部历史信息压缩进固定维度的隐状态,从而摆脱对 KV-Cache 的依赖。

Mamba-1 [1] 提出选择性状态更新机制,使模型能动态聚焦于关键片段;Mamba-2 [2] 进一步简化参数化(将过渡矩阵约束为输入依赖的单一标量),训练与部署更高效,但也牺牲了部分表达力与状态跟踪能力。

这正是 Mamba-3 的切入点:不是“再简化”,而是“把必要的表达力与数值稳定性找回来”,同时让解码阶段真的吃满硬件。作者将其称为 “inference-first paradigm(推理优先范式)”。

论文方法

Mamba-3 并非继续“极简化”,而是围绕数值稳定性状态表达力推理效率对线性 SSM 进行系统重构。原文的方法脉络可以概括为三步:

1. 广义梯形离散(GTR):用更高阶的时间离散替代一阶欧拉,作为数值近似与结构化掩码的基础;

2. 复值状态空间(Complex SSM):把旋转/周期性动态引入到状态转移,并给出与数据依赖 RoPE 的等价写法;

3. MIMO 更新与模块化整合:以更高算术强度实现线性解码的硬件友好。

2.1 复值状态空间

连续时间下,复值 SSM 记为:

控制衰减, 引入旋转频率,输出端取实部以与后续实值模块兼容。作者在随后的离散化推导中给出将旋转并入输入/输出投影(等价于数据依赖 RoPE)的形式,从而在保持线性复杂度的同时恢复对周期性/相位结构的表达能力。

▲ 图1. Mamba-2 vs Mamba-3 的模块级差异总览

2.2 广义梯形离散:从欧拉到隐显融合

在离散化层面,Mamba-3 采用广义梯形法(Generalized Trapezoidal Rule, GTR),用端点加权实现二阶全局精度与更好的数值稳定性。对复值状态与旋转动态离散后,论文给出与数据依赖 RoPE 等价的递推:

其中 GTR 离散系数(取决于步长与权重参数; / / 分别对应显式欧拉 / 隐式欧拉 / 经典梯形-Crank–Nicolson 的特例), 为由 诱导的2×2 旋转块所组成的块对角矩阵。

该式既给出复值+旋转的离散实现,也说明如何把累计旋转合并到 投影上(RoPE 等价)。

▲ 图2. 由广义梯形离散诱导的结构化掩码(可分解为“衰减 × 卷积”);右侧与欧拉法对比,显示端点加权带来的稳定性与更高精度。

2.3 MIMO更新:用算术强度换推理效率

为提升解码阶段的算术强度(FLOPs/IO)并缓解状态 IO 瓶颈,论文将传统 SISO 的外积更新改为 MIMO 的矩阵乘更新:

其中 ,rank 可调,从而使算术强度随 线性提升 ,更充分地进入计算受限(compute-bound)区间。

论文在 100B 训练与 440M 等配方实验中报告:验证困惑度小幅下降且平均分有稳定增益(正文标注 perplexity gain 0.16;表格显示 Avg ≈ +1.2 的提升,均在固定状态尺寸/显存开销下实现)。

▲ 图3. SISO vs MIMO 的算术强度示意;MIMO 随 rank r 线性上升,更好利用 GPU 算力。

2.4模块级整合与实现要点

综上,Mamba-3 在单个 SSM Block 内进行以下整合:

  • 状态动态:采用式(6)的复值 SSM;

  • 时间离散:采用 GTR,并按式(9)的旋转-RoPE 等价形式进行递推;

  • 推理效率:在实现层引入 MIMO 矩阵更新,提升算术强度;

  • 结构简化:短卷积变为可选/可去(由 GTR 与偏置协同替代);

  • 归一化与偏置:在 B/C 投影后加入 QK-Norm 与可学习偏置以稳态训练。

▲ 图4.两代架构关键差异一览:GTR 离散、数据依赖 RoPE(由复值旋转等价得到)、MIMO 投影、QK-Norm 与可学习 Bias。

实验结果

3.1 语言建模

在 FineWeb-Edu 100B 的统一配方下,Mamba-3 在 180M/440M/820M/1.5B 四个规模的下游平均分均为同尺度最佳,整体呈现稳定的小幅领先;与同规模 Transformer 的差距总体接近但更占优。

这验证了“复值 SSM + 梯形离散”的质量增益不仅体现在困惑度,也能转化到标准评测任务的平均准确率上。

▲ 表1. 多规模下游评测汇总;Mamba-3 在各尺度的 Avg 列均为该尺度最优。

3.2 长序列与检索

长序列外推方面,1.5B 规模在 held-out FineWeb-Edu 上的困惑度-长度曲线显示:Mamba-3 在训练长度之外依然保持更稳定的外推趋势,而 Mamba-2 在长上下文明显劣化。

▲ 图5. 1.5B 在不同上下文长度下的困惑度曲线;Mamba-3 的长度外推更稳。

检索方面,1.5B 规模在真实世界的关联回忆与 QA 上具竞争力;在半结构化/非结构化信息抽取上仍弱于 Transformer;在合成 NIAH 上则多数设置持平或更好,且 OOD 长度下更稳。

    ▲ 表2. 真实/合成检索结果总览;NIAH 与 OOD 设定下 Mamba-3 更稳定。

    3.3 推理效率

    解码效率由两部分支撑:算术强度与单步延迟。方法层面的图 3 已说明:MIMO 将传统 SISO 的外积更新替换为矩阵乘,使算术强度随 rank 近似线性提升,显著提高 FLOPs/IO 比,从而更吃满 GPU。

    在实验测量中(固定精度与状态维),单步延迟对比显示 Mamba-3(含 MIMO)更低延迟且更优困惑度-状态维的 Pareto 前沿:从 Mamba-2 → Mamba-3(SISO)整体下移,Mamba-3(MIMO)在相同状态开销下进一步下移。

      ▲ 图6. state size(推理速度代理)— pretraining perplexity(性能代理)的 Pareto 曲线;Mamba-3 MIMO 在不增加 state size 的前提下推动前沿。

      ▲ 表3. 单步解码延迟与配置对比;在同等设置下 Mamba-3 延迟更低。

      3.4 消融与形式语言

      组件消融表明:梯形离散 + BC 偏置的组合即可让短卷积成为可选且性能更优,说明数值积分精度与可加性偏置的协同才是性能来源。

      在形式语言(奇偶、算术)上,完整的 Mamba-3 显示出显著的状态跟踪能力,而去掉数据依赖 RoPE 的变体与 Mamba-2 均明显退化,这从实证层面支持了“复值动态 ≃ 数据依赖 RoPE 等价”的核心观点。

      ▲ 表4. 左为组件消融(困惑度),右为形式语言(比例化准确率);“梯形+偏置”可替代卷积,复值+RoPE 等价带回状态跟踪。

      结语

      Mamba-3 的价值不在“名字升级”,而在把数值方法、表达机制与硬件效率打通:

      • 广义梯形离散带来更稳的长序列传播,也让短卷积从“必需”变为“可选”;

      • 复值 SSM 与数据依赖 RoPE 的等价,使模型在形式语言、算术与长度外推上重新具备有效的状态跟踪;

      • MIMO 以可调 rank 提升算术强度,在相同状态开销下把困惑度—延迟前沿进一步推低。

      需要承认的边界也很清楚:固定状态维对复杂检索/信息抽取仍不占优,论文里 Mamba-3 在真实检索上“有竞争力但非全面领先”,优势主要体现在长序列稳定与 OOD 外推

      更可取的方向不是“更大”,而是更配得上的:检索增强(在不恢复二次注意力的前提下引入可索引记忆)、围绕 与 rank 的系统级自动调参(含精度/批大小/显存约束)、以及跨任务更系统的鲁棒性评测。

      总体判断——Mamba-3 是线性模型走向“推理优先、工程可部署”的成熟起点,但仍有明确的扩展空间。

      图片

      参考文献

      图片

      [1] Gu, A., & Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752, 2023.

      [2] Dao, T., & Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv:2405.21060, 2024.

      更多阅读

      #投 稿 通 道#

      让你的文字被更多人看到

      如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

      总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

      PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

      📝 稿件基本要求:

      • 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

      • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

      • PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

      📬 投稿通道:

      • 投稿邮箱:hr@paperweekly.site

      • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

      • 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

      △长按添加PaperWeekly小编

      🔍

      现在,在「知乎」也能找到我们了

      进入知乎首页搜索「PaperWeekly」

      点击「关注」订阅我们的专栏吧

      ·

      阅读原文

      跳转微信打开

      联系我们