动态列表

16岁创业，22岁做成百亿独角兽！3位高中同学帮大厂训AI年入1亿美金
《2025新智元ASI前沿趋势报告》全文
一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发
苹果端侧AI两连发！模型体积减半、首字延迟降85倍，iPhone离线秒用
Claude不让我们用！国产平替能顶上吗？
SceneSplat: 基于3DGS的场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃
慕尼黑车展 2025前瞻：中国队组团出海，BBA 走向「新」时代
国内外AI大厂重押，初创梭哈，谁能凭「记忆」成为下一个「DeepSeek」？
字节跳动Seed推出「机器人大脑」Robix：让机器人学会思考、规划与灵活互动
浙大提出SSGaussian：注入语义与结构灵魂的3D风格迁移，让高斯溅射场景化身艺术品
苹果 iPhone 17 系列规格已全被曝光；Anthropic 全面封杀中国公司接入；今夜将迎来「血月」月全食｜极客早知道
OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首
设计师大解放！清华发布「建筑平面图」自动生成模型 | ACL'25
谁不用谁亏！Karpathy吹爆GPT-5：10分钟编码完胜Claude一小时，奥特曼秒回感谢
震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？
Anthropic被作家告了，违规下载700万本书，15亿美元和解了
英伟达的局：狂撒15亿美元，从Lambda那租到了搭载自家AI芯片的GPU服务器
OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首
00后以1.1亿美金「掀桌」，硅谷AI将书写影视新传奇终结制片旧时代
任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式
IEEE TPAMI 2025｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！
ICCV 2025 | MOSEv2 全新亮相，第七届 LSVOS 挑战赛正式开启！
华为新问界 M7，6 小时订单破 13 万；等 eSIM，iPhone17 Air 首发无国行；特斯拉拟给马斯克 1 万亿薪酬
力压哈佛MIT！北交大、清华勇夺2025国际大学生程序设计竞赛金牌
长视频生成可以回头看了！牛津提出「记忆增稳」，速度提升12倍
0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道
今天，特朗普闭门宴请了大半个硅谷的CEO，马斯克老黄没来
追觅给洗地机，加了一双「灵巧手」
被网友逼着改名的谷歌Nano Banana，正在抢99%时尚博主的饭碗
不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂
外滩大会主论坛阵容揭幕！顶级学者、产业领袖和青年创新力量共话未来
第一家 AI 浏览器公司，卖了 43 亿！
Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了
博士申请 | 香港中文大学（深圳）游宇宁老师招收人工智能+生物医药全奖博士/实习生
推理加持的排序SOTA！把“召回+相似度”写进RL，文档排序更稳更准
KDD 2025 | 图异常基础模型来了：跨域零样本、少样本微调，原型残差全拿下
透明度罕见！百川公开M2完整技术报告，强化学习新范式引发行业关注
沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了
多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！
TPAMI重磅综述：一文读懂人类动作视频生成的五大阶段与三大多模态技术
拓展天文学认知边界，Google DeepMind用AI助力LIGO，填补宇宙演化史缺失环节
拍我AI限时免费6天！手办、宠物、奇幻创意随你生成不限次！
传 DeepSeek AI 代理新模型年底发布；马斯克「金色擎天柱」首曝；比亚迪不回应销量下调传闻
通用LLM压缩算法，居然藏视频编码里！2.5bit实现4bit性能，硬件无缝支持
83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI
「纳米香蕉」LMArena两周500万投票，引爆10倍流量！谷歌、OpenAI扎堆打擂台
DeepSeek大招曝光？梁文峰督战超级智能体：能自主学习，或年底发布
24999 元！华为推了一个「最大」的 Mate！
刚刚，李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
又多了一个哄孩子AI神器，一张破涂鸦竟能秒变迪士尼动画
PosterGen：告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报
「一句话生成爆款视频」，这款 AI 流量神器有点东西｜AI 上新
Claude Code凭什么牛？大模型团队天天用自家产品，发现bug直接就改了
刚刚，OpenAI发布白皮书：如何在AI时代保持领先
科研AI的进化论！系统梳理600+数据集与模型，上海AI Lab等发布科学大语言模型全景式综述
腾讯 ARC Lab 开源 IC-Custom ：一个强大且灵活的图像定制化工具！
长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman
全奖读AI！人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
SIGCOMM 2025｜重新定义个性化视频体验，快手与清华联合提出灵犀系统
拜读了某大佬发表的N篇顶会，原来论文“灌水”是这么玩的
多模态大模型，真的“懂”世界吗？ICML 2025高分论文实锤核心认知盲区
听见空间！ASAudio全景综述：空间音频表示→理解→生成全链路
北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
特斯拉下一代金色Optimus原型现身？一双「假手」成为最大槽点
让具身智能体拥有「空间感」！清华、北航联合提出类脑空间认知框架，导航、推理、做早餐样样精通
传特斯拉 Model Y L 日均订单过万；苹果联手谷歌，Siri 整合 Gemini；优必选获 2.5 亿，全球最大人形机器人订单
UCSD首个智能体浏览器发布！多页面设计，颠覆传统交互
Hinton最新警告：杀手机器人或将带来更多战争，最大担忧是AI接管人类
AI教父Hinton诺奖演讲首登顶刊！拒绝公式，让全场秒懂「玻尔兹曼机」
奥数金牌只是序章！OpenAI谷歌彻底打脸预言家，AI巨浪势不可挡
出货 1000 万台硬件后，我们和「凯叔讲故事」聊了聊「AI玩具」的核心
他不懂代码，却用 AI 黑掉 17 家医院和机构，Vibe Hacking 让全世界变成缅北
刚刚，谷歌放出Nano Banana六大正宗Prompt玩法，手残党速来
Anthropic承认模型降智后仍放任其偷懒？Claude Code用户信任崩塌中
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
ICLR 2025｜KGExplainer：让新知识的发现“有理可循”
入局AI4S？CPO宣布「OpenAI for Science」计划：打造下一代科学工具
2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
从复刻魔术开始，RoboMirage打开了机器人仿真的新世界
宇树科技官宣：年内提交IPO，或将冲刺科创板
其实，扩散语言模型在最终解码之前很久，就已确定最终答案
语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究
Benchmark新试炼场！从棋盘到德扑全覆盖，GAMEBoT虐测大模型推理力
【9月9日直播】大模型复杂推理技术：如何重塑AI推理逻辑
原子思维上线！Agentic Deep Research再进化：推理更深、答案更准
北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
USO：鱼与熊掌亦可兼得，字节跳动提出统一框架，完美融合主体与风格生成
刚刚，Anthropic在质疑声中获130亿美元融资，估值达1830亿
IROS 2025 | 机器人衣物折叠新范式，NUS邵林团队用MetaFold解耦轨迹与动作
iPhone 17定价曝光，仅Pro涨价；李斌：4季度实现月卖5万台车；COD「使命召唤」大电影官宣｜极客早知道
一张卡片，不仅 AI 了我的工作，还摸清了我的八字和 MBTI？｜AI 上新
马斯克曝终极AI计划！特斯拉堵上80%身家：500亿机器人打工，人类坐等拿钱
别错过这场AGI风暴！清华人大等AI大佬集结，剑指数字和物理世界进化
AI杀死首个世界名校？全球TOP 3「翻译界哈佛」倒闭，毕业校友成绝版
无惧AI失业潮的「铁饭碗」，微软揭秘了！能干到退休
为什么在小红书里的「电商」，长成了「市集」的模样
开学&教师节双重豪礼，英博云算力低至8毛8/卡时，赶紧薅起来
苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？
Scaling Laws起源于1993年？OpenAI总裁：深度学习的根本已揭秘
告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升
结构高度合理、具备理想特性，华东师大等提出分子生成新方法，协同生成原子与化学键
博士申请 | 北京大学计算机学院-中国电信招收计算机视觉方向联培博士生
ACM MM Asia火热征稿中！低年级PhD友好，不卷SOTA只看新意
经典机械物理模型 × 深度学习：揭开神经网络特征学习的秘密
ICML 2025 | 从联合空间到文本空间：测试时增强跨模态检索新范式
冲上热搜！美团大模型，靠「快」火了
DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？
ICCV 2025 | InterVLA：聚焦第一视角感知决策，大规模通用人-物-人交互数据集与评测基准
AI读网页，这次真不一样了，谷歌Gemini解锁「详解网页」新技能
性能逼近闭源最强，通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
广告，救不了 AI 搜索
14B打败671B！微软rStar2-Agent在数学推理上超过DeepSeek-R1
自搜索强化学习SSRL：Agentic RL的Sim2Real时刻
全球机器翻译比赛拿下30个语种第1名，腾讯混元翻译模型开源
腾讯回应米哈游起诉：QQ用户资料不能随便给；特斯拉首曝Cyber SUV；外卖「小电驴」须装北斗定位｜极客早知道
NeurIPS近3万投稿爆仓，强拒400篇论文！博士疯狂内卷，AI顶会噩梦来袭
同行评审濒临崩溃！一篇审稿报告450美元？科学家不再愿意「用爱发电」
CEO卷款夜逃迪拜，15亿美元独角兽爆雷！700印度码农冒充AI，坑惨微软
刚刚，DeepSeek最新发文！V3/R1训练细节全公开，信息量巨大
让图像会说话！视觉Token注入CLIP语义，TokLIP重塑多模态理解与生成
GRPO偷偷优化Pass@K？从0-1奖励到无偏策略，DeepMind揭示全面解法
EMNLP 2025｜人声解耦×伴奏对齐！浙大VersBand打造提示可控的歌曲生成框架
北京内推 | 联想研究院AI Lab招聘大模型算法实习生
快手的 2025：一个4亿人社区的新陈代谢，与2600万人的变现之路
开学了：入门AI，可以从这第一课开始
OpenAI大神：人工智能导论课程停在15年前，本科首选该是机器学习导论
中国电竞，已经是 Next Level！
NeurIPS 2025：高分论文也可能被拒，只为保住那25%左右的接收率？
DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态
把实验与计算「缝」到一张「地图」上：AI让材料发现路线更直观、可解释
字节跳动提出OneReward：一个奖励模型统一多任务图像生成，效果全面超越PS！
从「卖设备」到「建关系」，AI 硬件的破局点到底在哪里？
首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源
科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生
科研智能体「漫游指南」—助你构建领域专属科研智能体
今起 AI 生成内容必须亮明身份；大疆双摄 Pocket 4 曝光；微信公号留言广告上线

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

2025-09-07机器之心来源

自 2014 年提出以来，Adam 及其改进版 AdamW 长期占据开放权重语言模型预训练的主导地位，帮助模型在海量数据下保持稳定并实现较快收敛。

随着模型规模迅速扩大，预训练已成为计算密集型任务的典型代表，在大模型研发中往往是最主要的计算开销。在这种背景下，优化器的设计直接关系到收敛速度与计算成本。

研究者们探索了多种改进方向，其中最快的优化器往往采用矩阵型预条件子（如 Muon、Soap、Kron），相较于经过严格调优的 AdamW，可以带来约 30–40% 的迭代级别加速。

斯坦福大学 Percy Liang 团队的研究指出，尽管存在许多声称能提供显著加速（1.4 至 2 倍）的替代方案，AdamW 依然是预训练的稳健首选，但矩阵型方法在特定数据–模型比例下展现出明显优势。

论文标题：Fantastic Pretraining Optimizers and Where to Find Them
论文地址：https://www.arxiv.org/pdf/2509.02046v1
Github：https://github.com/marin-community/marin/issues/1290
博客：https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ

研究者认为，这种现象可能源于两个关键的方法论缺陷：

问题 1：不公平的超参数调优。

基线模型通常调优不足：在常用的 AdamW 基线中，仅仅是调优学习率这一个参数，就能在 1.3 亿参数规模的模型上实现 2 倍的加速。

固定共享的超参数并不能保证比较的公平性：例如，与标准的权重衰减值 0.1 相比，Lion 优化器更偏好较高的权重衰减值（如 0.6）。

^{左：常用的 AdamW 基线存在调优不足的问题。在 Brown 等人 [2020] 提出、并被后续多项研究采用的 GPT-3 训练方案中，仅仅针对一个 1 亿参数的模型调整学习率这一个超参数，便可实现高达 2 倍的加速，这凸显了进行恰当超参数优化的重要性。右：在不同优化器之间固定超参数并不能保证比较的公平性。在以往的研究中，像学习率和权重衰减这类共享超参数通常被设为常量。然而，即使是概念上相似的优化器，其对应的最优超参数也可能大相径庭。}

问题 2：测试规模不足

大多数测试仅使用小型模型（参数远小于 10 亿）或遵循 Chinchilla 论文提出的 1 倍数据配比。那么，在更大规模的模型或更高的数据配比下，结果会如何呢？

此外，训练早期的检查点也可能产生误导，在学习率衰减阶段，不同方法的损失曲线可能会发生交叉，从而导致最终排名反转。因此，必须在（不同的）设定下进行训练结束时的最终评估。

^{左：加速效果随模型规模的增大而衰减。尽管一些优化器在参数量小于 10 亿的模型上相比 AdamW 能展现出较高的加速比（1.3-1.4 倍），但当模型规模增至 12 亿参数时，其加速比会衰减至仅 1.1 倍。右：基于矩阵的优化器性能稳定优于基于标量的优化器。该图展示了三种基于标量的优化器（AdamW, Nesterov AdamW, Mars）和三种基于矩阵的优化器（Kron, Soap, Muon）在不同 Chinchilla 数据配比下训练时的损失曲线。基于矩阵的优化器相比基于标量的优化器实现了一致的加速效果。此外，在过训练（overtrained）的情况下，这三种基于矩阵的优化器最终会收敛到相似的损失值。}

为了验证这一假设，研究人员进行了系统性的比较研究，涵盖了十一种不同的深度学习优化器。他们在多种模型规模（从 1 亿到 12 亿参数）和数据–模型比例（参照 Chinchilla 最优比例的 1 倍至 8 倍）下，为每一种优化器都进行了严谨、独立的超参数调优。

^{本研究所使用的优化器。}

研究发现：

独立调优至关重要：一个优化器的最优超参数配置往往无法直接迁移到另一种优化器上。如果缺乏独立调优，不仅比较结果缺乏公平性，而且新优化器相较于精心调优过的 AdamW，实际加速效果远低于其声称的数值。
短期评估具有误导性：仅在短时间训练窗口内评估优化器性能是不可靠的。随着训练的进行和学习率衰减，不同优化器的性能排名可能会发生逆转，其损失曲线甚至会多次交叉。
矩阵方法性能领先：所有速度最快的优化器都采用了基于矩阵的预条件子，而非传统的逐元素标量缩放。Muon、Soap 和 Kron 等方法，相比严格调优后的 AdamW，能够实现 30–40% 的单步训练速度提升。

有趣的是，最优选择也与具体场景相关：在标准 Chinchilla 数据比例下，Muon 表现最佳；而当数据量相对于模型规模的比例提升至 8 倍以上时，Soap 则成为更优的选择。

方法

研究设计了一套严谨的方法论来评估这些优化器，该方法分为三个主要阶段。首先是通用设置阶段，明确了实验环境。研究使用了四种不同规模的 Transformer 模型，参数量从 130M 到 1.2B，序列长度均为 4096，并详细列举了各模型层数、隐藏维度等具体配置。

^{所研究的各个模型规模的详细架构超参数。}

数据方面，研究混合使用了 DCLM-baseline、StarCoder V2 和 ProofPile 2 数据集，并使用 LLaMA-3 分词器进行分词，确保了训练数据的丰富性。评估的优化器涵盖了 AdamW、NAdamW、Mars、Cautious、Lion、Adam-mini、Muon、Scion、Kron (PSGD) 、Soap 和 Sophia，代表了当前深度学习优化领域的主流和前沿方法。

阶段 I: 全面参数扫描

研究旨在解决基线优化器超参数调整不当导致其性能被低估的问题。研究采用了坐标下降法，对所有优化器的超参数（包括学习率、权重衰减、预热步数、β₁、β₂、ε、最大梯度范数和批次大小）在预设网格上进行了详尽搜索。

这一阶段的实验设置涵盖了 130M、300M 和 500M 模型在 1 倍 Chinchilla 数据量下的训练，以及 130M 模型在 2 倍、4 倍、8 倍 Chinchilla 数据量下的训练。

研究发现，对每个优化器进行严格的超参数调整至关重要，因为不同优化器之间的最优超参数配置差异显著，盲目迁移超参数会导致不公平的比较。

此外，研究也观察到，与经过精心调整的基线 AdamW 相比，实际的加速效果普遍低于此前一些研究所声称的水平。

阶段 II: 敏感超参数识别

研究根据第一阶段的结果，识别出那些最优值会随模型规模变化的敏感超参数，例如学习率和预热长度。随后，这些敏感超参数在 300M 和 500M 模型以及 2 倍、4 倍、8 倍 Chinchilla 数据量下进行了进一步的网格搜索。

^{第一阶段与第二阶段的主要结果。上图：我们绘制了第一阶段和第二阶段实验中，模型在 C4/EN 数据集上的验证集损失。图中的每一个点都对应于每种优化器在相应的 Chinchilla 数据配比下所能达到的最优损失值。下图：我们针对部分优化器，绘制了它们在 HellaSwag 基准上的性能。这些优化器包括：AdamW 基线、性能排名前 2 的基于标量的优化器，以及性能排名前 3 的基于矩阵的优化器。性能数据来自于它们各自最优的运行批次。}

通过结合前两个阶段的结果，研究获得了 12 种不同设置下的近乎最优超参数集及其对应的损失。为了量化不同优化器相对于 AdamW 的加速效果，研究拟合了 AdamW 损失随数据预算变化的缩放定律，并以此计算出达到相同损失所需的 AdamW 数据量与优化器实际所需数据量之比，作为加速比。

研究发现，基于矩阵的优化器虽然表现普遍优于基于标量的优化器，但其加速比在实际测试中均未超过 1.4 倍。许多替代优化器在小规模模型或有限数据比例下看似具有优势，但随着模型规模扩大，这些加速优势逐渐消失甚至反转，AdamW 依然是最稳健的预训练首选。

阶段 III: 案例研究

该阶段旨在对更大规模的实验进行深入探索。研究首先检验了超参数的拟合程度，通过拟合形式为的平滑定律，预测了在模型规模 N 和数据规模 D 下的最优设置。

为了验证这些缩放定律，研究对 1.2B 模型在 1 倍 Chinchilla 数据量下进行了全面扫描，结果显示预测的配置与实际最优配置之间的性能差异极小，证明了预测的有效性。

随后，研究进行了两项案例研究：一是训练 1.2B 模型在 1 至 8 倍 Chinchilla 数据量下，以检验优化器加速效果随模型规模扩展的变化；二是在 16 倍 Chinchilla 数据量下训练 130M 和 300M 模型，以观察在极端数据量与模型比例下的优化器表现。

^{案例分析。左图：在 12 亿参数模型上，AdamW、NAdamW、Muon 和 Soap 四种优化器的验证集损失缩放情况。结果显示，Muon 和 Soap 相比 AdamW 仍有显著的加速效果，但相比 NAdamW 已无明显加速优势。中图：采用与图 3 相同的方法估算加速比。我们观察到，Muon 和 Soap 的加速比随模型规模增大而衰减，最终降至仅 1.1 倍。右图：在 3 亿参数模型和 16 倍 Chinchilla 数据配比的设定下，实验结果表明，当数据与模型的比例进一步增大时，Soap 的性能优于 Muon。}

这一阶段的结果进一步揭示了 Muon 优化器的潜在局限性：尽管 Muon 对高达 1.2B 参数的模型仍有加速效果，但加速比会下降到 1.2 倍以下。在高数据与模型比例（如 16 倍 Chinchilla）下，NAdamW 和 Soap 在 130M 模型上超越了 Muon，且 Soap 在 300M 模型上也超过了 Muon。研究推测，在数据与模型比例很高时，Soap 和 Kron 所维持的二阶动量变得更为有效。

更多细节请阅读原论文。

]]>

动态列表

斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出

类别

资源

联系我们