原创 让你更懂AI的 2025-10-18 18:39 北京
扩散语言模型的新解码范式
由复旦大学、上海人工智能实验室、上海交通大学联合研究团队发布最新论文,提出了一套针对掩码扩散大语言模型(Masked Diffusion Large Language Model,MDLM)的解码策略+强化学习训练组合,显著提升了掩码扩散语言模型的推理性能与效率,为扩散大语言模型的发展开辟了新路径。
论文标题:
Taming Masked Diffusion Language Models via Consistency Trajectory Reinforcement Learning with Fewer Decoding Step
论文关键词:
#掩码扩散语言模型#扩散大语言模型#大语言模型#强化学习#高效解码
代码链接:
https://github.com/yjyddq/EOSER-ASS-RL
论文链接:
https://arxiv.org/pdf/2509.23924
解决了什么问题?
掩码扩散语言模型(MDLM)如 LLaDA 展现出与自回归模型相媲美的能力,并具备并行解码、灵活生成顺序、潜在少步推理等优势。
然而,完全扩散式的解码策略并未被广泛使用,取而代之的是分块解码(Block-wise or Semi-AR)。因为目前的完全扩散式解码存在两大痛点——性能逊色于分块解码和容易陷入 EOS 陷阱!
该团队基于这点发现刨根问底,最终定位到 MDLM 的全扩散式解码的三个特点:
1)解码过程中的 token 置信度变化趋势:由平缓到陡升
2)解码过程中 <EOS> token 的置信度一直显著大于其他非 <EOS> token
3)在每一步解码的时候都很大概率会有 <EOS> token 被解码出来,像是陷入了 <EOS> 的陷阱无法自拔。而分块解码由于块的限制存在,则不会深陷其中
此外,现有用于 MDLM 的强化学习算法忽略了优化轨迹和实际 rollout 轨迹的一致性问题,通常采用跳步优化
该团队将以上问题汇总为一下三个关键问题:
解码陷阱:全扩散解码容易在早期步骤中过早生成 <EOS>,导致前期生成大量无实际语义的 token 或生成过早中断,性能下降;
等间隔解码步长:根据 token 置信度的变化曲线,等间隔的解码步长可能不是最优的,因为解码前期对解码结果的置信度较低,而后期置信度较高;
rollout 轨迹和优化轨迹不一致:MDLM 的强化学习可能会面临轨迹不一致问题,影响优化效果。
提出了什么?
<EOS> 早期拒绝机制(EOSER)
在解码早期主动抑制 <EOS> 置信度,希望早期解码更多有实际语义的 token,让模型不再陷入 <EOS> 陷阱
后期逐步恢复 <EOS> 置信度,确保句子正常结束
递增步长调度器(Ascending Step-Size Scheduler)
前期谨慎解码(解码少量 token),后期大胆解码(解码大量 token)
每步的解码 token 数为 2s,推理时的解码时间复杂度直接从 O(L)降至 O(log2L)
训练时的解码时间/空间复杂度直接从 O(L)降至 O(log2L)
训练、推理速度大幅提升
一致性轨迹优化(CJ-GRPO)
弥补掩码扩散语言模型的推理和训练轨迹优化的一致性
缓解优化轨迹的不一致性导致的优化误差
训练更稳定,效果更出色
由于过长的步数会引入较大的存储开销,而结合递增步长调度器后,既能保证轨迹的一致性,同时能大大缩减计算开销
EOSER解码策略、ASS调度器和CJ-GRPO的强强强联合
装配 EOSER 解码策略和 ASS 步长调度器之后,再使用轨迹一致性分组策略优化(CJ-GRPO)算法进行在线强化学习训练,既减少了推理时间,同时削减了 CJ-GRPO 算法的解码中间状态存储开销,使得训练后的模型在少解码步数下甚至能达到 Baseline 方法 L/2 解码步数时的性能——“一石三鸟”。
模型在少步数(log2L)下仍能保持可观性能(与 L/2 解码步数相当),真正激发扩散语言模型的推理速度优势的潜能。
实验结果
在数学推理(GSM8K、MATH500)和规划任务(Countdown、Sudoku)上,使用 LLaDA-8B-Instruct 模型进行了广泛的实验,结果显示:
一致性轨迹优化在数学和规划任务上实现了对 baseline 的全面超越,CJ-GRPO+Semi-AR 在数学任务上表现突出,CJ-GRPO+EOSER 在规划任务上表现突出,规划任务上性能相比 baseline 提升 2-4 倍;
在都仅用 log2L 步数的情况下,EOSER+ASS 性能优于分块解码和全扩散式解码策略,甚至能达到与 L/2 步数相当的效果;
发现规划任务适合并行推理,数学问题适合顺序推理;
一致性轨迹优化结合递增步长调度器和 EOSER 解码策略,在少步数推理场景下保持良好的竞争力,真正实现“又快又好”。
研究意义和未来展望
本工作探究了扩散语言模型的全扩散式解码策略,并对其使用更一致的轨迹、更少的解码步数进行优化,用更少的步数,越快越好地完成更复杂的推理任务,推动扩散语言模型的全扩散式解码、快速解码、强化学习的发展!
并行推理 v.s. 顺序推理:装配了并行解码的 MDLM 在规划类任务中表现更加,而数学类任务则更适合半自回归/分块解码,这比较符合人类的直观感受。
未来可探索混合推理模式:结合扩散和自回归各自的优势,适应多样化任务需求。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·