ToolsAi

原创让你更懂AI的 2025-11-10 17:34 北京

低算力也能对齐SOTA的BERT预训练路线图

这篇来自 Yann LeCun 团队（FAIR × NYU）的 EMNLP 2025 论文做了一件简单但惊人到颠覆经验的事：Encoder 的最佳训练规律，和我们过去五年默认采用的经验——根本不是一回事。
而且“不是一回事”的量级，不是 10%，而是一个数量级。

如果把 2018-2024 的 Transformer 训练史回溯一遍，会发现一个有趣的结构性盲点：我们对 Decoder-only（NTP）的预算分配（模型与数据的配比）已经形成近乎标准教条。

更多算力时，模型要增大、数据也要扩、要注意 data-to-model ratio、Chinchilla 等工作背后，背后基本已经形成了一个约定俗成的配比经验。

但 Encoder-only（BERT，MLM）呢？

这一支线，从 BERT → RoBERTa → DeBERTa → ModernBERT → NeoBERT，虽然模块结构变得越来越现代，但绝大部分人训练 Encoder 时，是直接照搬自回归那一套——只是把 mask 率 ± 改一点点，把 token 数 ± 多喂一点点，再堆 compute，看看能不能往上再挤一分。

这篇论文把这个环节彻底拆开了：Encoder 最优数据/模型比不是 1-2 倍的差异，而是 10–100 倍。

这意味着，如果过去几年你的 Encoder 训练策略一直沿用 decoder 的配比逻辑，那很可能长期处在明显的过度训练区间，算力投入远超必要。

更关键的是，论文并不是只从经验总结这个现象，而是给出了一个可以直接计算的 Encoder 最优配比规律。

基于这个规律，论文训练了一个新的 Encoder 系列（命名为 OptiBERT），用于与 ModernBERT / NeoBERT 在相同 compute 条件下做正面对比。

▲ 图1. MTEB vs 统一算力 C

从论文第一页就能看到这张图。它不是简单的封面展示，而是直接把 MTEB 得分放回到统一算力 C 这个刻度下：对应 compute 下的表现差异是实测出来的，而不是只在文字上讨论。

论文标题：

Training compute-optimal transformer encoder models

论文链接：

https://aclanthology.org/2025.emnlp-main.1804.pdf

研究背景

为什么 Encoder 的最优 data / model scaling 会偏离自回归？不是凭感觉判断，而是因为目标从一开始就不同：MLM 只在被遮罩的 token 上产生梯度；而下游的衡量标准又是以表征质量为核心（以 MTEB 为代表），并不依赖自回归预测。

在这样的目标结构下，数据规模—模型规模—算力预算之间的最佳配比，本来就不可能与自回归一致，只是这一点过去一直没有被系统量化过。这篇论文做的，就是把这个差异明确地量化出来。

方法

作者首先把模型规模与数据规模统一到一个 compute 坐标中。每 token 的 FLOPs 写成：

总算力为：

之后所有讨论都在平面上进行：给定同样的 compute，不再以经验判断“扩大模型或增加 token 更划算”，而是直接比较最优点在该平面的位置。

接下来，作者在多个 compute 档位分别找到性能最优的点，并观察学习率与 batch size 随 compute 的 scaling 趋势，这意味着从较低 compute 档位即可反推出更大 compute 档位的起始搜索区间。

▲ 图2.学习率与 batch size 随 compute 的 scaling 趋势，可用于为更大 compute 提供合理起点。

然后作者在多个固定 compute 下分别提取最优，这些最优点呈幂律趋势，可向更大 compute 外推：

▲ 图3. 不同 compute 下最优 (F_N,D) 的幂律趋势，可作为外推骨架。

把 loss 当成空间里的连续函数：

然后在 log 空间用 Huber 回归拟合这些系数：

▲ 图4. 参数化损失在 (F_N,D) 平面的分布，并可从等 compute 线直接读出最优点。

有了这个参数化之后，最优点可以直接写成闭式解：

对应的数据规模为：

对应的 data/model ratio 为：

▲ 图5. Encoder 的最优 data/model ratio 比自回归更大，量级可达十到百倍。

实验结果

论文没有停在公式很漂亮这一层，而是用 closed-form 给出的去真正训练了一系列 Encoder（即 OptiBERT），再与现阶段最强的 Encoder，如 ModernBERT 与 NeoBERT 对齐 compute 去比较下游表现。

实验重点放在两个典型评估体系上：MTEB 和 GLUE。MTEB 是目前表征质量最被看重的一套 benchmark，GLUE 虽然整体已经接近上限，但仍可以用来检验是否出现明显性能塌陷。

从 MTEB 的结果看，OptiBERT 在明显更低的 compute 下，依然达到与 ModernBERT / NeoBERT 大致相同的分数区间。

▲ 表1.展示 MTEB（eng, v1）结果，在更低 compute 情况下，OptiBERT 与强基线处于同级表现带。

GLUE 上也出现类似趋势：OptiBERT 的表现并没有因为 compute 大幅减少而明显掉落，分数仍落在强基线附近的合理区间范围内。

▲ 表2. GLUE 验证集结果，结果为验证集表现，并给出 bootstrap 置信区间；OptiBERT 在更低 compute 下未见显著劣化。

此外，论文还把 scaling 系数直接列成一个表，用来连接“compute → 推荐区间”。这一表在复现与迁移时非常关键。

▲ 表3. 参数化损失与 scaling 拟合的系数，可用于把 compute 直接转化为具体模型规模与数据量。

结语

这篇论文的结论相当明确。Encoder 预训练的表现，与训练时点的 compute 继续增加并没有直接的正相关关系，更关键的是数据规模与模型规模之间的正确配比。

过去几年，我们普遍沿用自回归的经验来设置 Encoder 的训练预算，而论文给出的闭式解表明，两者的最优配比不在同一个数量级。这意味着，在很多场景里，Encoder 的训练消耗明显超出了最佳区间。

未来如果继续做表征式预训练，更合理的起点是先定位到闭式解对应的区间，再讨论下一档 compute，而不是直接增加训练成本。对于 Encoder，正确的比例关系比进一步拉长训练时间更重要。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

过去五年，BERT都在被“过度训练”？LeCun团队给出Encoder算力最优范式

这篇来自 Yann LeCun 团队（FAIR × NYU）的 EMNLP 2025 论文做了一件简单但惊人到颠覆经验的事：Encoder 的最佳训练规律，和我们过去五年默认采用的经验——根本不是一回事。
而且“不是一回事”的量级，不是 10%，而是一个数量级。

类别

资源

联系我们

动态列表

这篇来自 Yann LeCun 团队（FAIR × NYU）的 EMNLP 2025 论文做了一件简单但惊人到颠覆经验的事：Encoder 的最佳训练规律，和我们过去五年默认采用的经验——根本不是一回事。而且“不是一回事”的量级，不是 10%，而是一个数量级。

类别

资源

联系我们