原创 让你更懂AI的 2025-10-12 17:11 北京
复值SSM × 广义梯形离散 × MIMO,线性模型的全面重构
ICLR 2026 投稿惊现 Mamba-3:一场从数值分析、复值状态到硬件算力的系统重构,线性模型的“效率—能力—质量”三线齐升。
ICLR 2026 投稿惊现 Mamba-3:一场从数值分析、复值状态到硬件算力的系统重构,线性模型的“效率—能力—质量”三线齐升。
在 ICLR 2026 的 OpenReview 上,一篇匿名投稿以 Mamba-3 为名,给出了建立在经典状态空间理论上的三项系统性改造:复值状态空间(等价数据依赖 RoPE)、广义梯形离散(卷积化掩码)、以及 MIMO 化的状态更新(提升算术强度)。
与此前追求参数简化、结构轻量的 Mamba-2 不同,Mamba-3 回到了对数值稳定性与状态表达力的根本追问——它用更高阶的离散化精度、更丰富的复值动态和更高密度的算术更新,让线性时序模型重新具备可解释、可扩展的物理一致性。
作者称其为一次“inference-first paradigm(推理优先范式)”的回归,意味着推理效率不再是附加优化目标,而是模型设计的起点。
实验证明,在语言建模、形式语言推理与长序列解码延迟三个关键维度上,Mamba-3 都显著前移了性能—效率的 Pareto 前沿,为“后 Transformer 时代的线性建模”描绘出了一个新的可能边界。
论文标题:
Mamba-3: Improved Sequence Modeling using State Space Principles
论文链接:
https://openreview.net/pdf?id=HwCvaJOiCj
研究背景
Transformer 的瓶颈众所周知:自注意力的二次计算和 KV-Cache 的线性增长,使得“高质量大模型 + 高频推理”的工业部署面临成本与延迟的双重压力。
Mamba 系列以线性时间复杂度为突破口,通过选择性状态空间(Selective SSM)将全部历史信息压缩进固定维度的隐状态,从而摆脱对 KV-Cache 的依赖。
Mamba-1 [1] 提出选择性状态更新机制,使模型能动态聚焦于关键片段;Mamba-2 [2] 进一步简化参数化(将过渡矩阵约束为输入依赖的单一标量),训练与部署更高效,但也牺牲了部分表达力与状态跟踪能力。
这正是 Mamba-3 的切入点:不是“再简化”,而是“把必要的表达力与数值稳定性找回来”,同时让解码阶段真的吃满硬件。作者将其称为 “inference-first paradigm(推理优先范式)”。
论文方法
Mamba-3 并非继续“极简化”,而是围绕数值稳定性、状态表达力与推理效率对线性 SSM 进行系统重构。原文的方法脉络可以概括为三步:
1. 广义梯形离散(GTR):用更高阶的时间离散替代一阶欧拉,作为数值近似与结构化掩码的基础;
2. 复值状态空间(Complex SSM):把旋转/周期性动态引入到状态转移,并给出与数据依赖 RoPE 的等价写法;
3. MIMO 更新与模块化整合:以更高算术强度实现线性解码的硬件友好。
2.1 复值状态空间
连续时间下,复值 SSM 记为:
控制衰减, 引入旋转频率,输出端取实部以与后续实值模块兼容。作者在随后的离散化推导中给出将旋转并入输入/输出投影(等价于数据依赖 RoPE)的形式,从而在保持线性复杂度的同时恢复对周期性/相位结构的表达能力。
▲ 图1. Mamba-2 vs Mamba-3 的模块级差异总览
2.2 广义梯形离散:从欧拉到隐显融合
在离散化层面,Mamba-3 采用广义梯形法(Generalized Trapezoidal Rule, GTR),用端点加权实现二阶全局精度与更好的数值稳定性。对复值状态与旋转动态离散后,论文给出与数据依赖 RoPE 等价的递推:
其中 即 GTR 离散系数(取决于步长与权重参数; / / 分别对应显式欧拉 / 隐式欧拉 / 经典梯形-Crank–Nicolson 的特例), 为由 诱导的2×2 旋转块所组成的块对角矩阵。
该式既给出复值+旋转的离散实现,也说明如何把累计旋转合并到 投影上(RoPE 等价)。
▲ 图2. 由广义梯形离散诱导的结构化掩码(可分解为“衰减 × 卷积”);右侧与欧拉法对比,显示端点加权带来的稳定性与更高精度。
2.3 MIMO更新:用算术强度换推理效率
为提升解码阶段的算术强度(FLOPs/IO)并缓解状态 IO 瓶颈,论文将传统 SISO 的外积更新改为 MIMO 的矩阵乘更新:
其中 、,rank 可调,从而使算术强度随 线性提升 ,更充分地进入计算受限(compute-bound)区间。
论文在 100B 训练与 440M 等配方实验中报告:验证困惑度小幅下降且平均分有稳定增益(正文标注 perplexity gain 0.16;表格显示 Avg ≈ +1.2 的提升,均在固定状态尺寸/显存开销下实现)。
▲ 图3. SISO vs MIMO 的算术强度示意;MIMO 随 rank r 线性上升,更好利用 GPU 算力。
2.4模块级整合与实现要点
综上,Mamba-3 在单个 SSM Block 内进行以下整合:
状态动态:采用式(6)的复值 SSM;
时间离散:采用 GTR,并按式(9)的旋转-RoPE 等价形式进行递推;
推理效率:在实现层引入 MIMO 矩阵更新,提升算术强度;
结构简化:短卷积变为可选/可去(由 GTR 与偏置协同替代);
归一化与偏置:在 B/C 投影后加入 QK-Norm 与可学习偏置以稳态训练。
▲ 图4.两代架构关键差异一览:GTR 离散、数据依赖 RoPE(由复值旋转等价得到)、MIMO 投影、QK-Norm 与可学习 Bias。
实验结果
3.1 语言建模
在 FineWeb-Edu 100B 的统一配方下,Mamba-3 在 180M/440M/820M/1.5B 四个规模的下游平均分均为同尺度最佳,整体呈现稳定的小幅领先;与同规模 Transformer 的差距总体接近但更占优。
这验证了“复值 SSM + 梯形离散”的质量增益不仅体现在困惑度,也能转化到标准评测任务的平均准确率上。
▲ 表1. 多规模下游评测汇总;Mamba-3 在各尺度的 Avg 列均为该尺度最优。
3.2 长序列与检索
长序列外推方面,1.5B 规模在 held-out FineWeb-Edu 上的困惑度-长度曲线显示:Mamba-3 在训练长度之外依然保持更稳定的外推趋势,而 Mamba-2 在长上下文明显劣化。
▲ 图5. 1.5B 在不同上下文长度下的困惑度曲线;Mamba-3 的长度外推更稳。
检索方面,1.5B 规模在真实世界的关联回忆与 QA 上具竞争力;在半结构化/非结构化信息抽取上仍弱于 Transformer;在合成 NIAH 上则多数设置持平或更好,且 OOD 长度下更稳。
▲ 表2. 真实/合成检索结果总览;NIAH 与 OOD 设定下 Mamba-3 更稳定。
3.3 推理效率
解码效率由两部分支撑:算术强度与单步延迟。方法层面的图 3 已说明:MIMO 将传统 SISO 的外积更新替换为矩阵乘,使算术强度随 rank 近似线性提升,显著提高 FLOPs/IO 比,从而更吃满 GPU。
在实验测量中(固定精度与状态维),单步延迟对比显示 Mamba-3(含 MIMO)更低延迟且更优困惑度-状态维的 Pareto 前沿:从 Mamba-2 → Mamba-3(SISO)整体下移,Mamba-3(MIMO)在相同状态开销下进一步下移。
▲ 图6. state size(推理速度代理)— pretraining perplexity(性能代理)的 Pareto 曲线;Mamba-3 MIMO 在不增加 state size 的前提下推动前沿。
▲ 表3. 单步解码延迟与配置对比;在同等设置下 Mamba-3 延迟更低。
3.4 消融与形式语言
组件消融表明:梯形离散 + BC 偏置的组合即可让短卷积成为可选且性能更优,说明数值积分精度与可加性偏置的协同才是性能来源。
在形式语言(奇偶、算术)上,完整的 Mamba-3 显示出显著的状态跟踪能力,而去掉数据依赖 RoPE 的变体与 Mamba-2 均明显退化,这从实证层面支持了“复值动态 ≃ 数据依赖 RoPE 等价”的核心观点。
▲ 表4. 左为组件消融(困惑度),右为形式语言(比例化准确率);“梯形+偏置”可替代卷积,复值+RoPE 等价带回状态跟踪。
结语
Mamba-3 的价值不在“名字升级”,而在把数值方法、表达机制与硬件效率打通:
广义梯形离散带来更稳的长序列传播,也让短卷积从“必需”变为“可选”;
复值 SSM 与数据依赖 RoPE 的等价,使模型在形式语言、算术与长度外推上重新具备有效的状态跟踪;
MIMO 以可调 rank 提升算术强度,在相同状态开销下把困惑度—延迟前沿进一步推低。
需要承认的边界也很清楚:固定状态维对复杂检索/信息抽取仍不占优,论文里 Mamba-3 在真实检索上“有竞争力但非全面领先”,优势主要体现在长序列稳定与 OOD 外推。
更可取的方向不是“更大”,而是更配得上的:检索增强(在不恢复二次注意力的前提下引入可索引记忆)、围绕 与 rank 的系统级自动调参(含精度/批大小/显存约束)、以及跨任务更系统的鲁棒性评测。
总体判断——Mamba-3 是线性模型走向“推理优先、工程可部署”的成熟起点,但仍有明确的扩展空间。
参考文献
[1] Gu, A., & Dao, T. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752, 2023.
[2] Dao, T., & Gu, A. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. arXiv:2405.21060, 2024.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·