ToolsAi

原创让你更懂AI的 2025-10-18 18:39 北京

扩散语言模型的新解码范式

由复旦大学、上海人工智能实验室、上海交通大学联合研究团队发布最新论文，提出了一套针对掩码扩散大语言模型（Masked Diffusion Large Language Model，MDLM）的解码策略+强化学习训练组合，显著提升了掩码扩散语言模型的推理性能与效率，为扩散大语言模型的发展开辟了新路径。

论文标题：

Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step

论文关键词：

#掩码扩散语言模型 #扩散大语言模型 #大语言模型 #强化学习 #高效解码

代码链接：

https://github.com/yjyddq/EOSER-ASS-RL

论文链接：

https://arxiv.org/pdf/2509.23924

解决了什么问题？

掩码扩散语言模型（MDLM）如 LLaDA 展现出与自回归模型相媲美的能力，并具备并行解码、灵活生成顺序、潜在少步推理等优势。

然而，完全扩散式的解码策略并未被广泛使用，取而代之的是分块解码（Block-wise or Semi-AR）。因为目前的完全扩散式解码存在两大痛点——性能逊色于分块解码和容易陷入 EOS 陷阱！

该团队基于这点发现刨根问底，最终定位到 MDLM 的全扩散式解码的三个特点：

1）解码过程中的 token 置信度变化趋势：由平缓到陡升

2）解码过程中 <EOS> token 的置信度一直显著大于其他非 <EOS> token

3）在每一步解码的时候都很大概率会有 <EOS> token 被解码出来，像是陷入了 <EOS> 的陷阱无法自拔。而分块解码由于块的限制存在，则不会深陷其中

此外，现有用于 MDLM 的强化学习算法忽略了优化轨迹和实际 rollout 轨迹的一致性问题，通常采用跳步优化

该团队将以上问题汇总为一下三个关键问题：

解码陷阱：全扩散解码容易在早期步骤中过早生成 <EOS>，导致前期生成大量无实际语义的 token 或生成过早中断，性能下降；

等间隔解码步长：根据 token 置信度的变化曲线，等间隔的解码步长可能不是最优的，因为解码前期对解码结果的置信度较低，而后期置信度较高；

rollout 轨迹和优化轨迹不一致：MDLM 的强化学习可能会面临轨迹不一致问题，影响优化效果。

提出了什么？

<EOS> 早期拒绝机制（EOSER）

在解码早期主动抑制 <EOS> 置信度，希望早期解码更多有实际语义的 token，让模型不再陷入 <EOS> 陷阱
后期逐步恢复 <EOS> 置信度，确保句子正常结束

递增步长调度器（Ascending Step-Size Scheduler）

前期谨慎解码（解码少量 token），后期大胆解码（解码大量 token）
每步的解码 token 数为 2^s，推理时的解码时间复杂度直接从 O（L）降至 O（log₂L）
训练时的解码时间/空间复杂度直接从 O（L）降至 O（log₂L）
训练、推理速度大幅提升

一致性轨迹优化（CJ-GRPO）

弥补掩码扩散语言模型的推理和训练轨迹优化的一致性
缓解优化轨迹的不一致性导致的优化误差
训练更稳定，效果更出色
由于过长的步数会引入较大的存储开销，而结合递增步长调度器后，既能保证轨迹的一致性，同时能大大缩减计算开销

EOSER解码策略、ASS调度器和CJ-GRPO的强强强联合

装配 EOSER 解码策略和 ASS 步长调度器之后，再使用轨迹一致性分组策略优化（CJ-GRPO）算法进行在线强化学习训练，既减少了推理时间，同时削减了 CJ-GRPO 算法的解码中间状态存储开销，使得训练后的模型在少解码步数下甚至能达到 Baseline 方法 L/2 解码步数时的性能——“一石三鸟”。

模型在少步数（log₂L）下仍能保持可观性能（与 L/2 解码步数相当），真正激发扩散语言模型的推理速度优势的潜能。