ToolsAi

原创让你更懂AI的 2025-11-06 14:13 北京

一步吐一段，不再猜token

我们默认了两件事很久：语言模型应该逐 token 生成；加速只能靠算力。
CALM 的关键在于——它质疑的是这两件事本身。

在当前主流语言模型里，时间成本的基本单位是下一 token。这是一个我们长期习以为常、但很少真正质疑的前提。

模型无论多大、算力无论多强，只要下一步永远是再预测一个 token，生成速度与 token 数仍旧线性挂钩。当文本长度不断增大，推理时间会随之累积，预测链条也会愈加冗长。

来自微信 AI 和清华团队的 CALM（Continuous Autoregressive Language Models）选择从根本结构把这一前提重新定义。它设定一个连续长度 K，把连续 K 个 token 压成一个潜向量 z，然后让模型预测下一潜向量，而不是下一个 token。

因此，生成步数从 T 变成 T/K，延时也随之成比例缩短。并且 CALM 为连续预测同时提供无似然训练目标、无似然评测指标和无似然温度采样策略，使连续空间的生成模型可以在工程中闭环落地，而不依赖 log-likelihood 的显式建模。

论文标题：

Continuous Autoregressive Language Models

论文链接：

https://arxiv.org/pdf/2510.27688

项目主页：

https://shaochenze.github.io/blog/2025/CALM/

代码链接：

https://github.com/shaochenze/calm

研究背景

离散 token 的编码方式最初是语言建模的自然选择，它提供明确的词序结构和清晰的词片段划分。

但这种方式天然地限制了每一步预测的信息带宽：一个 token 的语义承载能力有限，而词表规模越大，softmax 的梯度开销与推理开销会进一步放大。

在高算力背景下，这个瓶颈尤为明显：模型可以继续 scale，但单步仍只能执行“在有限词表上做离散分类”的决策，无法显著提升每一步的有效信息吞吐量

CALM 将语义从离散 token 域转移到连续潜空间，试图直接提升每一步的语义密度。只要连续潜向量 z 能保持高保真还原 K 个 token，那么下一潜向量预测就能承载更大语义单元。

因此，它不是换一种训练技巧，而是换掉下一步预测的基本单位，让自回归生成的每一步都能携带更大带宽，从而减少生成步数，进而减少延迟。

方法

2.1 潜向量压缩

CALM 首先训练一个自编码器，将连续长度为 K 的文本片段编码成潜向量 z：

为避免潜空间过度退化，引入 KL 正则：

▲ 图1. 从“下一 token”预测转向“下一潜向量”预测，生成步数按 1/K 缩减。

在论文实验中，K=4 的配置即可取得 99.9%+ 的 token 重构精度。这意味着在“潜空间→token”映射上，信息损失非常低，从而使潜向量本身成为可承载语义的预测对象。

2.2 预测下一个潜向量

自回归主干仍然使用 Transformer，但预测目标变为下一潜向量：

▲ 图2. Transformer 主干预测连续潜向量，生成头以单步 Energy Head 实现，并通过 residual MLP 对噪声 ε 进行 refine。

扩散或流匹配虽然也能生成连续向量，但需要多步迭代抽样，会抵消 1/K 带来的加速收益；而单步 Energy Head 只需一次前向抽样，从而保持端到端速度优势。

此外，输入给主干的方式不是直接投潜向量，而是先解码回 token embedding 再压缩后送入主干；这一设计在实验中表现明显优于直接输入 latent。

2.3 Energy Score 训练

连续潜空间不适用传统 log-likelihood，CALM 的训练目标是 Energy Score：

在实验中最稳定，容易引起梯度爆炸，丧失严格合适性。

2.4 BrierLM 评测

Brier Score：

无似然估计式：

最终指标为 1–4gram Brier 几何平均：

▲ 图3. BrierLM 与交叉熵指标高度单调一致，可直接对标。

2.5 温度控制采样

温度分布写为：

▲ 图4. 无需 logits，仅通过重复采样与接受规则实现温度调节。

实验

论文主要评估两件事：

第一，在相同或更低的 FLOPs 下，CALM 是否能达到甚至超过强 token-level Transformer baseline；

第二，当潜向量长度 K 增大时，带宽提升带来的增益如何与主干容量相互匹配。

在 BrierLM 的整体对比中，K=4 是最突出的平衡点：在更少 FLOPs 下即可超过等规模 token-level baseline，而 K=8 反而开始下滑。这说明潜向量带宽不是越大越好，而是存在“主干可以有效承接的区间”，K=4 在本论文设定下刚好落在这个区间内。

▲ 表1. 性能与计算成本对比：K=4 是折中点

autoencoder 的正则化也有明确影响。下表的消融表明：只用 AE loss 会导致潜空间更容易塌缩；加入 KL 正则可以改善情况，但效果仍然有限。

在此基础上再加入 embedding 对齐项（embedding MLP regularizer）后，潜表示的可恢复性最稳定，token 重构精度也显著提高。

▲ 表2. autoencoder 正则化消融：KL + embedding 正则组合最佳

Energy Score 的超参数 α 也呈现出明晰的工作区间。α=1 的表现最稳；接近 α=2 时严格合适性无法保持、性能显著下降。这说明 Energy Score 虽然是连续定义，但可用区间不宽，这个约束是连续潜空间建模的重要结构限制，而不是单纯的调参细节。

▲ 表3. 不同 α 的性能对比：α 是稳定工作区间

在温度采样方面，实际实现采用 exact 的 likelihood-free Temperature Sampling，并在采样代价过大时 fallback 到 Algorithm2 的近似版本。fallback 不改变目标分布，只影响模型抽样开销，因此不会破坏无似然链条的一致性。

总结

CALM 把“下一 token”换成“下一潜向量”作为自回归的基本单位。只要 latent 能高保真代表 K 个 token，这个单位切换就会把生成步数直接除以 K，延迟与 FLOPs 也一起下降。

更重要的是，论文没有停在概念层面，而是给出了连续潜空间 LM 能运行起来所需要的所有环节：训练（Energy Score）、评测（BrierLM）、温控采样（Likelihood-free Temperature Sampling）。

实验结果表明：K=4 是当前架构的稳定区间；K=8 并不会更好。换句话说，潜带宽必须和主干容量匹配，而不是越大越强。

CALM 的这一建模方式仍有优化空间，尤其是在潜带宽与主干容量的配比、以及连续潜空间生成头的进一步建模能力上。但从完整的训练目标、指标体系与抽样机制来看，连续潜向量自回归已经具备可比较、可评估、可迭代的框架基础。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

自回归不必按token算了：微信AI × 清华用CALM直接「整段」预测

我们默认了两件事很久：语言模型应该逐 token 生成；加速只能靠算力。
CALM 的关键在于——它质疑的是这两件事本身。

类别

资源

联系我们

动态列表

我们默认了两件事很久：语言模型应该逐 token 生成；加速只能靠算力。CALM 的关键在于——它质疑的是这两件事本身。

类别

资源

联系我们

我们默认了两件事很久：语言模型应该逐 token 生成；加速只能靠算力。
CALM 的关键在于——它质疑的是这两件事本身。