动态列表

  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道

过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式

原创 让你更懂AI的 2025-11-10 17:34 北京

低算力也能对齐SOTA的BERT预训练路线图

图片

这篇来自 Yann LeCun 团队(FAIR × NYU)的 EMNLP 2025 论文做了一件简单但惊人到颠覆经验的事:Encoder 的最佳训练规律,和我们过去五年默认采用的经验——根本不是一回事。

而且“不是一回事”的量级,不是 10%,而是一个数量级。

如果把 2018-2024 的 Transformer 训练史回溯一遍,会发现一个有趣的结构性盲点:我们对 Decoder-only(NTP)的预算分配(模型与数据的配比)已经形成近乎标准教条。

更多算力时,模型要增大、数据也要扩、要注意 data-to-model ratio、Chinchilla 等工作背后,背后基本已经形成了一个约定俗成的配比经验。

Encoder-only(BERT,MLM)呢?

这一支线,从 BERT → RoBERTa → DeBERTa → ModernBERT → NeoBERT,虽然模块结构变得越来越现代,但绝大部分人训练 Encoder 时,是直接照搬自回归那一套——只是把 mask 率 ± 改一点点,把 token 数 ± 多喂一点点,再堆 compute,看看能不能往上再挤一分。

这篇论文把这个环节彻底拆开了:Encoder 最优数据/模型比不是 1-2 倍的差异而是 10–100 倍

这意味着,如果过去几年你的 Encoder 训练策略一直沿用 decoder 的配比逻辑,那很可能长期处在明显的过度训练区间,算力投入远超必要。

更关键的是,论文并不是只从经验总结这个现象,而是给出了一个可以直接计算的 Encoder 最优配比规律

基于这个规律,论文训练了一个新的 Encoder 系列(命名为 OptiBERT),用于与 ModernBERT / NeoBERT 在相同 compute 条件下做正面对比。

▲ 图1. MTEB vs 统一算力 C

从论文第一页就能看到这张图。它不是简单的封面展示,而是直接把 MTEB 得分放回到统一算力 C 这个刻度下:对应 compute 下的表现差异是实测出来的,而不是只在文字上讨论。

论文标题:

Training compute-optimal transformer encoder models

论文链接:

https://aclanthology.org/2025.emnlp-main.1804.pdf

研究背景

为什么 Encoder 的最优 data / model scaling 会偏离自回归?不是凭感觉判断,而是因为目标从一开始就不同:MLM 只在被遮罩的 token 上产生梯度;而下游的衡量标准又是以表征质量为核心(以 MTEB 为代表),并不依赖自回归预测。

在这样的目标结构下,数据规模—模型规模—算力预算之间的最佳配比,本来就不可能与自回归一致,只是这一点过去一直没有被系统量化过。这篇论文做的,就是把这个差异明确地量化出来。

方法

作者首先把模型规模与数据规模统一到一个 compute 坐标中。每 token 的 FLOPs 写成:

总算力为:

之后所有讨论都在 平面上进行:给定同样的 compute,不再以经验判断“扩大模型或增加 token 更划算”,而是直接比较最优点在该平面的位置。

接下来,作者在多个 compute 档位分别找到性能最优的点,并观察学习率与 batch size 随 compute 的 scaling 趋势,这意味着从较低 compute 档位即可反推出更大 compute 档位的起始搜索区间。

▲ 图2.学习率与 batch size 随 compute 的 scaling 趋势,可用于为更大 compute 提供合理起点。

然后作者在多个固定 compute 下分别提取最优 ,这些最优点呈幂律趋势,可向更大 compute 外推:

▲ 图3. 不同 compute 下最优 (F_N,D) 的幂律趋势,可作为外推骨架。

把 loss 当成 空间里的连续函数:

然后在 log 空间用 Huber 回归拟合这些系数:

▲ 图4. 参数化损失在 (F_N,D) 平面的分布,并可从等 compute 线直接读出最优点。

有了这个参数化之后,最优点可以直接写成闭式解:

对应的数据规模为:

对应的 data/model ratio 为:

▲ 图5. Encoder 的最优 data/model ratio 比自回归更大,量级可达十到百倍。

实验结果

论文没有停在公式很漂亮这一层,而是用 closed-form 给出的 去真正训练了一系列 Encoder(即 OptiBERT),再与现阶段最强的 Encoder,如 ModernBERT 与 NeoBERT 对齐 compute 去比较下游表现。

实验重点放在两个典型评估体系上:MTEB 和 GLUE。MTEB 是目前表征质量最被看重的一套 benchmark,GLUE 虽然整体已经接近上限,但仍可以用来检验是否出现明显性能塌陷。

从 MTEB 的结果看,OptiBERT 在明显更低的 compute 下,依然达到与 ModernBERT / NeoBERT 大致相同的分数区间。

▲ 表1.展示 MTEB(eng, v1)结果,在更低 compute 情况下,OptiBERT 与强基线处于同级表现带。

GLUE 上也出现类似趋势:OptiBERT 的表现并没有因为 compute 大幅减少而明显掉落,分数仍落在强基线附近的合理区间范围内。

▲ 表2. GLUE 验证集结果,结果为验证集表现,并给出 bootstrap 置信区间;OptiBERT 在更低 compute 下未见显著劣化。

此外,论文还把 scaling 系数直接列成一个表,用来连接“compute → 推荐 区间”。这一表在复现与迁移时非常关键。

▲ 表3. 参数化损失与 scaling 拟合的系数,可用于把 compute 直接转化为具体模型规模与数据量。

结语

这篇论文的结论相当明确。Encoder 预训练的表现,与训练时点的 compute 继续增加并没有直接的正相关关系,更关键的是数据规模与模型规模之间的正确配比。

过去几年,我们普遍沿用自回归的经验来设置 Encoder 的训练预算,而论文给出的闭式解表明,两者的最优配比不在同一个数量级。这意味着,在很多场景里,Encoder 的训练消耗明显超出了最佳区间。

未来如果继续做表征式预训练,更合理的起点是先定位到闭式解对应的 区间,再讨论下一档 compute,而不是直接增加训练成本。对于 Encoder,正确的比例关系比进一步拉长训练时间更重要。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们