原创 让你更懂AI的 2025-11-10 17:34 北京
低算力也能对齐SOTA的BERT预训练路线图
这篇来自 Yann LeCun 团队(FAIR × NYU)的 EMNLP 2025 论文做了一件简单但惊人到颠覆经验的事:Encoder 的最佳训练规律,和我们过去五年默认采用的经验——根本不是一回事。
而且“不是一回事”的量级,不是 10%,而是一个数量级。
这篇来自 Yann LeCun 团队(FAIR × NYU)的 EMNLP 2025 论文做了一件简单但惊人到颠覆经验的事:Encoder 的最佳训练规律,和我们过去五年默认采用的经验——根本不是一回事。
而且“不是一回事”的量级,不是 10%,而是一个数量级。
如果把 2018-2024 的 Transformer 训练史回溯一遍,会发现一个有趣的结构性盲点:我们对 Decoder-only(NTP)的预算分配(模型与数据的配比)已经形成近乎标准教条。
更多算力时,模型要增大、数据也要扩、要注意 data-to-model ratio、Chinchilla 等工作背后,背后基本已经形成了一个约定俗成的配比经验。
但 Encoder-only(BERT,MLM)呢?
这一支线,从 BERT → RoBERTa → DeBERTa → ModernBERT → NeoBERT,虽然模块结构变得越来越现代,但绝大部分人训练 Encoder 时,是直接照搬自回归那一套——只是把 mask 率 ± 改一点点,把 token 数 ± 多喂一点点,再堆 compute,看看能不能往上再挤一分。
这篇论文把这个环节彻底拆开了:Encoder 最优数据/模型比不是 1-2 倍的差异,而是 10–100 倍。
这意味着,如果过去几年你的 Encoder 训练策略一直沿用 decoder 的配比逻辑,那很可能长期处在明显的过度训练区间,算力投入远超必要。
更关键的是,论文并不是只从经验总结这个现象,而是给出了一个可以直接计算的 Encoder 最优配比规律。
基于这个规律,论文训练了一个新的 Encoder 系列(命名为 OptiBERT),用于与 ModernBERT / NeoBERT 在相同 compute 条件下做正面对比。
▲ 图1. MTEB vs 统一算力 C
从论文第一页就能看到这张图。它不是简单的封面展示,而是直接把 MTEB 得分放回到统一算力 C 这个刻度下:对应 compute 下的表现差异是实测出来的,而不是只在文字上讨论。
论文标题:
Training compute-optimal transformer encoder models
论文链接:
https://aclanthology.org/2025.emnlp-main.1804.pdf
研究背景
为什么 Encoder 的最优 data / model scaling 会偏离自回归?不是凭感觉判断,而是因为目标从一开始就不同:MLM 只在被遮罩的 token 上产生梯度;而下游的衡量标准又是以表征质量为核心(以 MTEB 为代表),并不依赖自回归预测。
在这样的目标结构下,数据规模—模型规模—算力预算之间的最佳配比,本来就不可能与自回归一致,只是这一点过去一直没有被系统量化过。这篇论文做的,就是把这个差异明确地量化出来。
方法
作者首先把模型规模与数据规模统一到一个 compute 坐标中。每 token 的 FLOPs 写成:
总算力为:
之后所有讨论都在 平面上进行:给定同样的 compute,不再以经验判断“扩大模型或增加 token 更划算”,而是直接比较最优点在该平面的位置。
接下来,作者在多个 compute 档位分别找到性能最优的点,并观察学习率与 batch size 随 compute 的 scaling 趋势,这意味着从较低 compute 档位即可反推出更大 compute 档位的起始搜索区间。
▲ 图2.学习率与 batch size 随 compute 的 scaling 趋势,可用于为更大 compute 提供合理起点。
然后作者在多个固定 compute 下分别提取最优 ,这些最优点呈幂律趋势,可向更大 compute 外推:
▲ 图3. 不同 compute 下最优 (F_N,D) 的幂律趋势,可作为外推骨架。
把 loss 当成 空间里的连续函数:
然后在 log 空间用 Huber 回归拟合这些系数:
▲ 图4. 参数化损失在 (F_N,D) 平面的分布,并可从等 compute 线直接读出最优点。
有了这个参数化之后,最优点可以直接写成闭式解:
对应的数据规模为:
对应的 data/model ratio 为:
▲ 图5. Encoder 的最优 data/model ratio 比自回归更大,量级可达十到百倍。
实验结果
论文没有停在公式很漂亮这一层,而是用 closed-form 给出的 去真正训练了一系列 Encoder(即 OptiBERT),再与现阶段最强的 Encoder,如 ModernBERT 与 NeoBERT 对齐 compute 去比较下游表现。
实验重点放在两个典型评估体系上:MTEB 和 GLUE。MTEB 是目前表征质量最被看重的一套 benchmark,GLUE 虽然整体已经接近上限,但仍可以用来检验是否出现明显性能塌陷。
从 MTEB 的结果看,OptiBERT 在明显更低的 compute 下,依然达到与 ModernBERT / NeoBERT 大致相同的分数区间。
▲ 表1.展示 MTEB(eng, v1)结果,在更低 compute 情况下,OptiBERT 与强基线处于同级表现带。
GLUE 上也出现类似趋势:OptiBERT 的表现并没有因为 compute 大幅减少而明显掉落,分数仍落在强基线附近的合理区间范围内。
▲ 表2. GLUE 验证集结果,结果为验证集表现,并给出 bootstrap 置信区间;OptiBERT 在更低 compute 下未见显著劣化。
此外,论文还把 scaling 系数直接列成一个表,用来连接“compute → 推荐 区间”。这一表在复现与迁移时非常关键。
▲ 表3. 参数化损失与 scaling 拟合的系数,可用于把 compute 直接转化为具体模型规模与数据量。
结语
这篇论文的结论相当明确。Encoder 预训练的表现,与训练时点的 compute 继续增加并没有直接的正相关关系,更关键的是数据规模与模型规模之间的正确配比。
过去几年,我们普遍沿用自回归的经验来设置 Encoder 的训练预算,而论文给出的闭式解表明,两者的最优配比不在同一个数量级。这意味着,在很多场景里,Encoder 的训练消耗明显超出了最佳区间。
未来如果继续做表征式预训练,更合理的起点是先定位到闭式解对应的 区间,再讨论下一档 compute,而不是直接增加训练成本。对于 Encoder,正确的比例关系比进一步拉长训练时间更重要。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·