动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线

原创 让你更懂AI的 2025-10-17 17:14 北京

理解曲线,比追求算力更重要

Meta 花了 420 万美元、40 万 GPU·小时,只为验证一个大胆猜想: 强化学习的结果,其实在训练一半时就能被算出来。

在大模型时代,烧钱的研究已经见怪不怪;但当 Meta 的论文承认——这项实验消耗了超过 40 万 GPU·小时(社区按 GB200 单价估算约 420 万美元),只为验证一条看似简单的 Sigmoid 方程时,整个行业还是震惊了。

他们要回答的不是“如何让模型更聪明”,而是一个更基础的问题:一场强化学习实验的结果,能否在训练中途就被可靠地预测?

这篇题为 The Art of Scaling Reinforcement Learning Compute for LLMs 的工作,用一场堪称“天价”的实验告诉我们:强化学习的可扩展性不是玄学,它遵循一条可以外推的曲线。

注:论文正文仅报告 GPU·小时与硬件信息,并未直接给出美元成本;上文美元金额为依据社区通行单价的粗略估算。

论文标题:

The Art of Scaling Reinforcement Learning Compute for LLMs

论文链接:

https://arxiv.org/pdf/2510.13786

研究背景

RL 阶段的“不可预测”广为人知:相同模型、不同配方,在小算力阶段看似领先,到了大算力往往后劲不足甚至崩塌。

论文强调:比较 RL 的可扩展性,不应只看若干下游点测,而应在分布内验证集上拟合“计算量 → 表现”的曲线,并用三个量化参数来判断一条路线是否值得继续加算力:

上限 (能到多高)/ 效率 (涨得多快)/ 中点 (何时开始递减)。

这改变了评估范式:先判断“值不值扩大算力”,再决定“用哪种配方去扩”。

论文方法

2.1 Sigmoid 规模律

于是,Meta 从最基础的规律入手:如果预训练有幂律,RL 是否也存在一条自己的曲线?

他们提出一个看似朴素、却颠覆性的假设——大模型在 RL 阶段的性能增长,并非线性,而是 Sigmoid 饱和曲线。

公式如下:

其中: 表示渐近性能上限(上限能到多高), 控制效率斜率(算力增长带来多少收益), 是达到半数提升的计算量。

简单来说,每个 RL 方案都可以用三个数来刻画:上限 A、效率 B、拐点

▲ 图1. Sigmoid三参数与曲线形态的直观示意

一旦能在训练早期拟合出这条曲线,就能用有限算力预测未来收益——强化学习第一次被写成了公式,而不是玄学。

为了验证这个规律,Meta 设计了一场堪称“史诗级”的实验。他们在 8B dense 17B×16 MoE 模型上,进行了总计 400,000 GPU·小时的强化学习训练。每一次消融实验,都对应上万美元的算力开销。

在 8B 模型上,他们仅用前半段(约 50,000 GPU·小时)的训练数据拟合出 Sigmoid 曲线,然后外推预测剩余训练的性能。

结果惊人——外推曲线与真实训练曲线几乎完全重合。这意味着,只需用一半算力,就能提前预测另一半算力的回报。

图2:8B与17B×16模型的Sigmoid外推结果

Meta 在论文中写道:

“Stable RL recipes follow predictable scaling trajectories.”

稳定的 RL 配方,沿着可预测的轨迹增长。

2.2 ScaleRL 框架

接下来,Meta 将这些规律整合为一个系统化框架——ScaleRL。它并非提出新算法,而是把稳定性工程抽象为一组可复用组件。

核心组件包括:

  • PipelineRL 异步流式架构生成端持续 rollout,训练端实时更新,避免资源空转;

  • CISPO 损失函数结合截断重要性采样(IS clipping)与 REINFORCE,实现更稳定的梯度估计;

  • FP32 精度修复在 logits 层使用全精度计算,避免数值误差引发的梯度坍塌;

  • 以及若干优化策略,如 Prompt-level 聚合、Batch-level 优势归一化、Zero-variance filtering、No-positive-resampling 等。

在 CISPO 中,论文首先定义 token-level 重要性采样比,随后提出核心优化目标函数:

其中 表示 stop-gradient 操作, 为截断阈值, 为优势函数(advantage)。

▲ 图3-5. 关键组件的实验比较:PipelineRL、CISPO、FP32 及 Filtering 策略

这一设计在 off-policy 场景下既能抑制分布漂移,又维持梯度稳定。在消融实验中,这些组件单独看似影响有限,但组合后显著提升了训练的稳定性、鲁棒性与可扩展性。

实验:可预测性,不止一次奏效

Meta 没止步于一次 100K GPU·小时的实验。他们想知道:这条 Sigmoid 曲线,是否在不同设定、不同规模下依然奏效。

于是,团队从多个维度验证了 ScaleRL 的可预测性:配方消融、模型规模、上下文长度、batch 大小……每一次扩展,都在验证同一个命题——强化学习能否像预训练那样,被数学规律驯服。

3.1 配方消融

研究者把 ScaleRL 拆解成若干组件(PipelineRL、CISPO、FP32、Filtering),然后逐个“拔掉”,再用 Sigmoid 曲线重新拟合。

结果很清晰:每个组件单独看来影响有限,但组合后,曲线最平滑、效率 B 最高。

▲ 图6. Leave-One-Out(LOO)实验:去掉任意组件都会降低效率 B

当团队在相同配置下重复 3 次实验时,曲线几乎重叠,渐近性能 A 的波动不到 ±0.02——这意味着 ScaleRL 的拟合不仅稳定,而且可复现

▲ 图7. 三次独立运行的拟合方差与误差界

特别是在 17B×16 MoE(Scout)模型上,FP32 精度修复的作用更明显。一旦关闭它,训练曲线立刻失稳;重新启用后,曲线重新贴合 Sigmoid 外推的预测。

▲ 图8. Scout(17B×16 MoE)上的 FP32 LOO:加回 FP32 后曲线重新收敛

3.2 扩展维度

ScaleRL 的“曲线可预测性”在不同的算力旋钮上依旧成立:

长上下文:从 14k 增到 32k,曲线初期变缓,但上限 A 明显抬升,外推曲线准确预测“后程反超”。

▲ 图9. 长上下文扩展:初期变慢、上限更高,外推准确

大 batch:早期略慢,但后期上限更高,小 batch 反而会提前饱和。

▲ 图10. 全局 batch 扩展:大 batch 提升上限,小 batch 提前饱和

这些结果表明:无论改模型、改上下文还是改 batch,Sigmoid 外推都在奏效。ScaleRL 不只是在一个实验上“偶然稳定”,而是一种可复用的规律。

图片

结语

这篇研究的意义在于,把强化学习从依赖直觉的试验过程,转化为一套可度量、可预测的工程体系。Meta 用 40 万 GPU·小时的实验代价,验证了一个极具指导性的结论——大模型在 RL 阶段同样遵循规模律,性能的提升可以被公式化地描述和外推。

这意味着,研究者不再需要在算力与参数之间盲目试探,而能够在训练的早期就判断投入的回报率。强化学习的优化,不再是经验的积累,而成为可规划的工程。

从更长远的视角来看,ScaleRL 为大模型训练建立了一种新的范式:它让我们从“如何让模型变强”转向“如何预测模型会变强”。在未来的研究中,理解这条曲线,或许会比单纯堆叠算力更重要。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们