原创 让你更懂AI的 2025-11-06 14:13 北京
一步吐一段,不再猜token
我们默认了两件事很久:语言模型应该逐 token 生成;加速只能靠算力。
CALM 的关键在于——它质疑的是这两件事本身。
我们默认了两件事很久:语言模型应该逐 token 生成;加速只能靠算力。
CALM 的关键在于——它质疑的是这两件事本身。
在当前主流语言模型里,时间成本的基本单位是下一 token。这是一个我们长期习以为常、但很少真正质疑的前提。
模型无论多大、算力无论多强,只要下一步永远是再预测一个 token,生成速度与 token 数仍旧线性挂钩。当文本长度不断增大,推理时间会随之累积,预测链条也会愈加冗长。
来自微信 AI 和清华团队的 CALM(Continuous Autoregressive Language Models)选择从根本结构把这一前提重新定义。它设定一个连续长度 K,把连续 K 个 token 压成一个潜向量 z,然后让模型预测下一潜向量,而不是下一个 token。
因此,生成步数从 T 变成 T/K,延时也随之成比例缩短。并且 CALM 为连续预测同时提供无似然训练目标、无似然评测指标和无似然温度采样策略,使连续空间的生成模型可以在工程中闭环落地,而不依赖 log-likelihood 的显式建模。
论文标题:
Continuous Autoregressive Language Models
论文链接:
https://arxiv.org/pdf/2510.27688
项目主页:
https://shaochenze.github.io/blog/2025/CALM/
代码链接:
https://github.com/shaochenze/calm
研究背景
离散 token 的编码方式最初是语言建模的自然选择,它提供明确的词序结构和清晰的词片段划分。
但这种方式天然地限制了每一步预测的信息带宽:一个 token 的语义承载能力有限,而词表规模越大,softmax 的梯度开销与推理开销会进一步放大。
在高算力背景下,这个瓶颈尤为明显:模型可以继续 scale,但单步仍只能执行“在有限词表上做离散分类”的决策,无法显著提升每一步的有效信息吞吐量
CALM 将语义从离散 token 域转移到连续潜空间,试图直接提升每一步的语义密度。只要连续潜向量 z 能保持高保真还原 K 个 token,那么下一潜向量预测就能承载更大语义单元。
因此,它不是换一种训练技巧,而是换掉下一步预测的基本单位,让自回归生成的每一步都能携带更大带宽,从而减少生成步数,进而减少延迟。
方法
2.1 潜向量压缩
CALM 首先训练一个自编码器,将连续长度为 K 的文本片段编码成潜向量 z:
为避免潜空间过度退化,引入 KL 正则:
▲ 图1. 从“下一 token”预测转向“下一潜向量”预测,生成步数按 1/K 缩减。
在论文实验中,K=4 的配置即可取得 99.9%+ 的 token 重构精度。这意味着在“潜空间→token”映射上,信息损失非常低,从而使潜向量本身成为可承载语义的预测对象。
2.2 预测下一个潜向量
自回归主干仍然使用 Transformer,但预测目标变为下一潜向量:
▲ 图2. Transformer 主干预测连续潜向量,生成头以单步 Energy Head 实现,并通过 residual MLP 对噪声 ε 进行 refine。
扩散或流匹配虽然也能生成连续向量,但需要多步迭代抽样,会抵消 1/K 带来的加速收益;而单步 Energy Head 只需一次前向抽样,从而保持端到端速度优势。
此外,输入给主干的方式不是直接投潜向量,而是先解码回 token embedding 再压缩后送入主干;这一设计在实验中表现明显优于直接输入 latent。
2.3 Energy Score 训练
连续潜空间不适用传统 log-likelihood,CALM 的训练目标是 Energy Score:
在实验中最稳定, 容易引起梯度爆炸, 丧失严格合适性。
2.4 BrierLM 评测
Brier Score:
无似然估计式:
最终指标为 1–4gram Brier 几何平均:
▲ 图3. BrierLM 与交叉熵指标高度单调一致,可直接对标。
2.5 温度控制采样
温度分布写为:
▲ 图4. 无需 logits,仅通过重复采样与接受规则实现温度调节。
实验
论文主要评估两件事:
第一,在相同或更低的 FLOPs 下,CALM 是否能达到甚至超过强 token-level Transformer baseline;
第二,当潜向量长度 K 增大时,带宽提升带来的增益如何与主干容量相互匹配。
在 BrierLM 的整体对比中,K=4 是最突出的平衡点:在更少 FLOPs 下即可超过等规模 token-level baseline,而 K=8 反而开始下滑。这说明潜向量带宽不是越大越好,而是存在“主干可以有效承接的区间”,K=4 在本论文设定下刚好落在这个区间内。
▲ 表1. 性能与计算成本对比:K=4 是折中点
autoencoder 的正则化也有明确影响。下表的消融表明:只用 AE loss 会导致潜空间更容易塌缩;加入 KL 正则可以改善情况,但效果仍然有限。
在此基础上再加入 embedding 对齐项(embedding MLP regularizer)后,潜表示的可恢复性最稳定,token 重构精度也显著提高。
▲ 表2. autoencoder 正则化消融:KL + embedding 正则组合最佳
Energy Score 的超参数 α 也呈现出明晰的工作区间。α=1 的表现最稳;接近 α=2 时严格合适性无法保持、性能显著下降。这说明 Energy Score 虽然是连续定义,但可用区间不宽,这个约束是连续潜空间建模的重要结构限制,而不是单纯的调参细节。
▲ 表3. 不同 α 的性能对比:α 是稳定工作区间
在温度采样方面,实际实现采用 exact 的 likelihood-free Temperature Sampling,并在采样代价过大时 fallback 到 Algorithm2 的近似版本。fallback 不改变目标分布,只影响模型抽样开销,因此不会破坏无似然链条的一致性。
总结
CALM 把“下一 token”换成“下一潜向量”作为自回归的基本单位。只要 latent 能高保真代表 K 个 token,这个单位切换就会把生成步数直接除以 K,延迟与 FLOPs 也一起下降。
更重要的是,论文没有停在概念层面,而是给出了连续潜空间 LM 能运行起来所需要的所有环节:训练(Energy Score)、评测(BrierLM)、温控采样(Likelihood-free Temperature Sampling)。
实验结果表明:K=4 是当前架构的稳定区间;K=8 并不会更好。换句话说,潜带宽必须和主干容量匹配,而不是越大越强。
CALM 的这一建模方式仍有优化空间,尤其是在潜带宽与主干容量的配比、以及连续潜空间生成头的进一步建模能力上。但从完整的训练目标、指标体系与抽样机制来看,连续潜向量自回归已经具备可比较、可评估、可迭代的框架基础。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·