动态列表

  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单
  • UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
  • Hinton最新警告:杀手机器人或将带来更多战争,最大担忧是AI接管人类
  • AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」
  • 奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡
  • 出货 1000 万台硬件后,我们和「凯叔讲故事」聊了聊「AI玩具」的核心
  • 他不懂代码,却用 AI 黑掉 17 家医院和机构,Vibe Hacking 让全世界变成缅北
  • 刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
  • Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
  • ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
  • ICLR 2025|KGExplainer:让新知识的发现“有理可循”
  • 入局AI4S?CPO宣布「OpenAI for Science」计划:打造下一代科学工具
  • 2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
  • 从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
  • 宇树科技官宣:年内提交IPO,或将冲刺科创板
  • 其实,扩散语言模型在最终解码之前很久,就已确定最终答案
  • 语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
  • Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力
  • 【9月9日直播】大模型复杂推理技术:如何重塑AI推理逻辑
  • 原子思维上线!Agentic Deep Research再进化:推理更深、答案更准
  • 北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
  • USO:鱼与熊掌亦可兼得,字节跳动提出统一框架,完美融合主体与风格生成
  • 刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
  • IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作
  • iPhone 17定价曝光,仅Pro涨价;李斌:4季度实现月卖5万台车;COD「使命召唤」大电影官宣|极客早知道
  • 一张卡片,不仅 AI 了我的工作,还摸清了我的八字和 MBTI?|AI 上新
  • 马斯克曝终极AI计划!特斯拉堵上80%身家:500亿机器人打工,人类坐等拿钱
  • 别错过这场AGI风暴!清华人大等AI大佬集结,剑指数字和物理世界进化
  • AI杀死首个世界名校?全球TOP 3「翻译界哈佛」倒闭,毕业校友成绝版
  • 无惧AI失业潮的「铁饭碗」,微软揭秘了!能干到退休
  • 为什么在小红书里的「电商」,长成了「市集」的模样
  • 开学&教师节双重豪礼,英博云算力低至8毛8/卡时,赶紧薅起来
  • 苹果新研究:不微调、不重训,如何让AI提问效率暴增6.5倍?
  • Scaling Laws起源于1993年?OpenAI总裁:深度学习的根本已揭秘
  • 告别无效计算!新TTS框架拯救19%被埋没答案,推理准确率飙升
  • 结构高度合理、具备理想特性,华东师大等提出分子生成新方法,协同生成原子与化学键
  • 博士申请 | 北京大学计算机学院-中国电信招收计算机视觉方向联培博士生
  • ACM MM Asia火热征稿中!低年级PhD友好,不卷SOTA只看新意
  • 经典机械物理模型 × 深度学习:揭开神经网络特征学习的秘密
  • ICML 2025 | 从联合空间到文本空间:测试时增强跨模态检索新范式
  • 冲上热搜!美团大模型,靠「快」火了
  • DeepMind爆火论文:向量嵌入模型存在数学上限,Scaling laws放缓实锤?
  • ICCV 2025 | InterVLA:聚焦第一视角感知决策,大规模通用人-物-人交互数据集与评测基准
  • AI读网页,这次真不一样了,谷歌Gemini解锁「详解网页」新技能
  • 性能逼近闭源最强,通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
  • 广告,救不了 AI 搜索
  • 14B打败671B!微软rStar2-Agent在数学推理上超过DeepSeek-R1
  • 自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
  • 全球机器翻译比赛拿下30个语种第1名,腾讯混元翻译模型开源
  • 腾讯回应米哈游起诉:QQ用户资料不能随便给;特斯拉首曝Cyber SUV;外卖「小电驴」须装北斗定位|极客早知道
  • NeurIPS近3万投稿爆仓,强拒400篇论文!博士疯狂内卷,AI顶会噩梦来袭
  • 同行评审濒临崩溃!一篇审稿报告450美元?科学家不再愿意「用爱发电」
  • CEO卷款夜逃迪拜,15亿美元独角兽爆雷!700印度码农冒充AI,坑惨微软
  • 刚刚,DeepSeek最新发文!V3/R1训练细节全公开,信息量巨大
  • 让图像会说话!视觉Token注入CLIP语义,TokLIP重塑多模态理解与生成
  • GRPO偷偷优化Pass@K?从0-1奖励到无偏策略,DeepMind揭示全面解法
  • EMNLP 2025|人声解耦×伴奏对齐!浙大VersBand打造提示可控的歌曲生成框架
  • 北京内推 | 联想研究院AI Lab招聘大模型算法实习生
  • 快手的 2025:一个4亿人社区的新陈代谢,与2600万人的变现之路
  • 开学了:入门AI,可以从这第一课开始
  • OpenAI大神:人工智能导论课程停在15年前,本科首选该是机器学习导论
  • 中国电竞,已经是 Next Level!
  • NeurIPS 2025:高分论文也可能被拒,只为保住那25%左右的接收率?
  • DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态
  • 把实验与计算「缝」到一张「地图」上:AI让材料发现路线更直观、可解释
  • 字节跳动提出OneReward:一个奖励模型统一多任务图像生成,效果全面超越PS!
  • 从「卖设备」到「建关系」,AI 硬件的破局点到底在哪里?
  • 首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
  • 科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
  • 科研智能体「漫游指南」—助你构建领域专属科研智能体
  • 今起 AI 生成内容必须亮明身份;大疆双摄 Pocket 4 曝光;微信公号留言广告上线

斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出

自 2014 年提出以来,Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位,帮助模型在海量数据下保持稳定并实现较快收敛。

随着模型规模迅速扩大,预训练已成为计算密集型任务的典型代表,在大模型研发中往往是最主要的计算开销。在这种背景下,优化器的设计直接关系到收敛速度与计算成本。

研究者们探索了多种改进方向,其中最快的优化器往往采用矩阵型预条件子(如 Muon、Soap、Kron),相较于经过严格调优的 AdamW,可以带来约 30–40% 的迭代级别加速。

斯坦福大学 Percy Liang 团队的研究指出,尽管存在许多声称能提供显著加速(1.4 至 2 倍)的替代方案,AdamW 依然是预训练的稳健首选,但矩阵型方法在特定数据–模型比例下展现出明显优势

图片
  • 论文标题:Fantastic Pretraining Optimizers and  Where to Find Them

  • 论文地址:https://www.arxiv.org/pdf/2509.02046v1

  • Github:https://github.com/marin-community/marin/issues/1290

  • 博客:https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者认为,这种现象可能源于两个关键的方法论缺陷:

  • 问题 1:不公平的超参数调优。

基线模型通常调优不足:在常用的 AdamW 基线中,仅仅是调优学习率这一个参数,就能在 1.3 亿参数规模的模型上实现 2 倍的加速。

固定共享的超参数并不能保证比较的公平性:例如,与标准的权重衰减值 0.1 相比,Lion 优化器更偏好较高的权重衰减值(如 0.6)。

图片

左:常用的 AdamW 基线存在调优不足的问题。 在 Brown 等人 [2020] 提出、并被后续多项研究采用的 GPT-3 训练方案中,仅仅针对一个 1 亿参数的模型调整学习率这一个超参数,便可实现高达 2 倍的加速,这凸显了进行恰当超参数优化的重要性。右:在不同优化器之间固定超参数并不能保证比较的公平性。 在以往的研究中,像学习率和权重衰减这类共享超参数通常被设为常量。然而,即使是概念上相似的优化器,其对应的最优超参数也可能大相径庭。

  • 问题 2:测试规模不足

大多数测试仅使用小型模型(参数远小于 10 亿)或遵循 Chinchilla 论文提出的 1 倍数据配比。那么,在更大规模的模型或更高的数据配比下,结果会如何呢?

此外,训练早期的检查点也可能产生误导,在学习率衰减阶段,不同方法的损失曲线可能会发生交叉,从而导致最终排名反转。因此,必须在(不同的)设定下进行训练结束时的最终评估。

图片

左:加速效果随模型规模的增大而衰减。 尽管一些优化器在参数量小于 10 亿的模型上相比 AdamW 能展现出较高的加速比(1.3-1.4 倍),但当模型规模增至 12 亿参数时,其加速比会衰减至仅 1.1 倍。右:基于矩阵的优化器性能稳定优于基于标量的优化器。 该图展示了三种基于标量的优化器(AdamW, Nesterov AdamW, Mars)和三种基于矩阵的优化器(Kron, Soap, Muon)在不同 Chinchilla 数据配比下训练时的损失曲线。基于矩阵的优化器相比基于标量的优化器实现了一致的加速效果。此外,在过训练(overtrained)的情况下,这三种基于矩阵的优化器最终会收敛到相似的损失值。

为了验证这一假设,研究人员进行了系统性的比较研究,涵盖了十一种不同的深度学习优化器。他们在多种模型规模(从 1 亿到 12 亿参数)和数据–模型比例(参照 Chinchilla 最优比例的 1 倍至 8 倍)下,为每一种优化器都进行了严谨、独立的超参数调优。

图片

                本研究所使用的优化器。

研究发现:

  • 独立调优至关重要:一个优化器的最优超参数配置往往无法直接迁移到另一种优化器上。如果缺乏独立调优,不仅比较结果缺乏公平性,而且新优化器相较于精心调优过的 AdamW,实际加速效果远低于其声称的数值。

  • 短期评估具有误导性:仅在短时间训练窗口内评估优化器性能是不可靠的。随着训练的进行和学习率衰减,不同优化器的性能排名可能会发生逆转,其损失曲线甚至会多次交叉。

  • 矩阵方法性能领先:所有速度最快的优化器都采用了基于矩阵的预条件子,而非传统的逐元素标量缩放。Muon、Soap 和 Kron 等方法,相比严格调优后的 AdamW,能够实现 30–40% 的单步训练速度提升。

有趣的是,最优选择也与具体场景相关:在标准 Chinchilla 数据比例下,Muon 表现最佳;而当数据量相对于模型规模的比例提升至 8 倍以上时,Soap 则成为更优的选择。

图片

方法

研究设计了一套严谨的方法论来评估这些优化器,该方法分为三个主要阶段。首先是通用设置阶段,明确了实验环境。研究使用了四种不同规模的 Transformer 模型,参数量从 130M 到 1.2B,序列长度均为 4096,并详细列举了各模型层数、隐藏维度等具体配置。

图片

      所研究的各个模型规模的详细架构超参数。

数据方面,研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 数据集,并使用 LLaMA-3 分词器进行分词,确保了训练数据的丰富性。评估的优化器涵盖了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia,代表了当前深度学习优化领域的主流和前沿方法。

阶段 I: 全面参数扫描

研究旨在解决基线优化器超参数调整不当导致其性能被低估的问题。研究采用了坐标下降法,对所有优化器的超参数(包括学习率、权重衰减、预热步数、β₁、β₂、ε、最大梯度范数和批次大小)在预设网格上进行了详尽搜索。

这一阶段的实验设置涵盖了 130M、300M 和 500M 模型在 1 倍 Chinchilla 数据量下的训练,以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 数据量下的训练。

研究发现,对每个优化器进行严格的超参数调整至关重要,因为不同优化器之间的最优超参数配置差异显著,盲目迁移超参数会导致不公平的比较。

此外,研究也观察到,与经过精心调整的基线 AdamW 相比,实际的加速效果普遍低于此前一些研究所声称的水平。

阶段 II: 敏感超参数识别

研究根据第一阶段的结果,识别出那些最优值会随模型规模变化的敏感超参数,例如学习率和预热长度。随后,这些敏感超参数在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 数据量下进行了进一步的网格搜索。

图片

第一阶段与第二阶段的主要结果。上图: 我们绘制了第一阶段和第二阶段实验中,模型在 C4/EN 数据集上的验证集损失。图中的每一个点都对应于每种优化器在相应的 Chinchilla 数据配比下所能达到的最优损失值。下图: 我们针对部分优化器,绘制了它们在 HellaSwag 基准上的性能。这些优化器包括:AdamW 基线、性能排名前 2 的基于标量的优化器,以及性能排名前 3 的基于矩阵的优化器。性能数据来自于它们各自最优的运行批次。

通过结合前两个阶段的结果,研究获得了 12 种不同设置下的近乎最优超参数集及其对应的损失。为了量化不同优化器相对于 AdamW 的加速效果,研究拟合了 AdamW 损失随数据预算变化的缩放定律,并以此计算出达到相同损失所需的 AdamW 数据量与优化器实际所需数据量之比,作为加速比。

研究发现,基于矩阵的优化器虽然表现普遍优于基于标量的优化器,但其加速比在实际测试中均未超过 1.4 倍。许多替代优化器在小规模模型或有限数据比例下看似具有优势,但随着模型规模扩大,这些加速优势逐渐消失甚至反转,AdamW 依然是最稳健的预训练首选。

阶段 III: 案例研究

该阶段旨在对更大规模的实验进行深入探索。研究首先检验了超参数的拟合程度,通过拟合形式为图片 的平滑定律,预测了在模型规模 N 和数据规模 D 下的最优设置。

为了验证这些缩放定律,研究对 1.2B 模型在 1 倍 Chinchilla 数据量下进行了全面扫描,结果显示预测的配置与实际最优配置之间的性能差异极小,证明了预测的有效性。

随后,研究进行了两项案例研究:一是训练 1.2B 模型在 1 至 8 倍 Chinchilla 数据量下,以检验优化器加速效果随模型规模扩展的变化;二是在 16 倍 Chinchilla 数据量下训练 130M 和 300M 模型,以观察在极端数据量与模型比例下的优化器表现。

图片

案例分析。左图: 在 12 亿参数模型上,AdamW、NAdamW、Muon 和 Soap 四种优化器的验证集损失缩放情况。结果显示,Muon 和 Soap 相比 AdamW 仍有显著的加速效果,但相比 NAdamW 已无明显加速优势。中图: 采用与图 3 相同的方法估算加速比。我们观察到,Muon 和 Soap 的加速比随模型规模增大而衰减,最终降至仅 1.1 倍。右图: 在 3 亿参数模型和 16 倍 Chinchilla 数据配比的设定下,实验结果表明,当数据与模型的比例进一步增大时,Soap 的性能优于 Muon。

这一阶段的结果进一步揭示了 Muon 优化器的潜在局限性:尽管 Muon 对高达 1.2B 参数的模型仍有加速效果,但加速比会下降到 1.2 倍以下。在高数据与模型比例(如 16 倍 Chinchilla)下,NAdamW 和 Soap 在 130M 模型上超越了 Muon,且 Soap 在 300M 模型上也超过了 Muon。研究推测,在数据与模型比例很高时,Soap 和 Kron 所维持的二阶动量变得更为有效。


更多细节请阅读原论文。
]]>

联系我们