动态列表

  • AI编程里程碑!谷歌AI自己写代码惊呆工程师,GPU内核算法反超人类21%
  • RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱
  • 刚刚,苹果绝密计划曝光!3年7款新品,AI眼镜27年卖爆千万台
  • 黑化威胁操纵人类!Claude勒索,o1自主逃逸,人类「执剑人」紧急上线
  • 95后,边改造业务边发AI顶会论文,是怎样的体验?
  • 只用2700万参数,这个推理模型超越了DeepSeek和Claude
  • 会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
  • 首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
  • ACL 2025 | AI字幕慢半拍,不知道大家在笑什么?新方法让同传性能直逼离线翻译
  • 豆包上线“深入研究”功能 几分钟解决复杂任务
  • 响应香港数字资产发展政策宣言 蚂蚁数科在港开放四大核心技术
  • 大模型再「战」高考:从一本直升 985
  • 等不到始祖鸟的老外,疯抢这个 999 美元的国产消费级「外骨骼」
  • 上海交大KinFormer:生成式符号回归模型助力自动发现未知化学反应动力学机制
  • 欧洲第一台百万兆次级超级计算机JUPITER ,排名第4,正打开广阔的科学计算前景 ScienceAI ScienceAI 2025年06月30日 11:50 北京
  • 刚刚,OpenAI全员放假一周!被Meta高薪连挖8人「偷家」,真麻了
  • 用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
  • 微软推出深度视频探索智能体,登顶多个长视频理解基准
  • AI+VR运动系统让超重青少年减重4.28kg,还能显著提升认知功能!
  • 小米 YU7 租车 2 千/天,打平兰博基尼;日本推出「猫咪压力项圈」;OpenAI 斥 Meta 挖角「入室盗窃」|极客早知道
  • Nature:博士太多,高校已经装不下了!
  • 马斯克生日惊喜!全球首例Model Y无人「自驾交付」,30分钟见证历史
  • Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了
  • 盘一盘,2017年Transformer之后,LLM领域的重要论文
  • 打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
  • 刚刚,OpenAI四位华人学者集体被挖,还是Meta重金出手
  • 充分激发模态协作,MokA量身打造MLLM微调新范式
  • 特斯拉首次完成全自动驾驶交付;YU7 锁单交付时间更新,标准版最快 53 周;OpenAI 首次采用谷歌芯片训练
  • 刚刚,马斯克切脑全场震撼!插脑只要1.5秒,26年治愈失明,28年全人类变AI
  • 苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了
  • 史上最惨AI店长!被顾客耍到破产,「人格觉醒」却忘了自己是代码
  • 刚刚,英伟达任命新首席研究科学家!95后,本科来自清华
  • 扬言将杀死9个行业,21岁小哥又开发人生作弊器,曾被哥大、哈佛开除
  • OpenAI转向谷歌TPU:宿敌也能变朋友?
  • 无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
  • Claude当上小店店主,不仅经营不善,还一度相信自己是真实人类
  • ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
  • 思科2025生态创新峰会成功举行——发布AI时代的安全架构与网络解决方案,助力企业转型升级
  • 191亿,苏州又跑出一个 IPO
  • 雷军:YU7 订单超过最乐观预期,不会公布 24 小时销量;字节 Seed 招募多个机器人相关业务一号位;Grok 4 将在 7 月 4 日发布|极客早知道
  • OpenAI员工爆料:已抢先体验GPT-5!7月上线,疑似完全多模态
  • 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025
  • 谷歌AI将攻破200年数学难题!39岁天才率队密研三年,或摘千禧年大奖
  • 「超级智能」终极拼图曝光!小扎连撬OpenAI灵魂研究员,Meta梦之队已成形
  • 「没有包袱」的原生鸿蒙,要做成最纯粹的「AI 操作系统」
  • vivo X Fold5 评测:更轻更强,苹果生态最佳 CP
  • 中国人民大学团队开发SPACE:基于MoE的DNA基础模型新范式
  • 音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!
  • 这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash
  • ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
  • 勾勒智能答卷,上海再启新章——WAIC 2025倒计时30天五大进展发布
  • 不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜
  • 谢菲尔德大学、阿斯利康提出MapDiff,准确捕捉蛋白逆折叠的结构信息和残基相互作用
  • 83.9%精准度,专家级AI模型Eye2Gene实现遗传性眼病基因诊断
  • 苹果出手!改进GRPO,让dLLM也能高效强化学习
  • AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
  • AgentAuditor: 让智能体安全评估器的精确度达到人类水平
  • 谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型
  • 突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
  • 小米 YU7 发布,一小时大定 28.9万台;英伟达一夜涨 1.2 万亿,重回市值第一;索尼推进《社交网络 2》制作|极客早知道
  • 3mm超薄「随身AI大脑」来了!全球首个Agentic神器让打工人疯狂种草
  • 谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控
  • 谷歌AlphaGenome横空出世!40亿年生命代码一键破解,或再夺诺奖
  • 外媒爆料:美国AI马歇尔计划预备开启,却被特朗普搞砸了!
  • 小米 YU7 1 小时订单近 30万,知道雷军会赢,没想到这么狠!
  • 小米YU7正式开卖,一小时大定289000台
  • 李志飞的 AI 实验:1 个人,2 天做出 AI 时代的「飞书」,重拾 AGI 信仰
  • 蚂蚁集团加速推进AI医疗健康,推出全新大模型应用「AQ」
  • 把「Her」装进一张卡里
  • 5款大模型考「山东卷」,Gemini、豆包分别获文理第一名
  • ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
  • 在脊椎动物胚胎实现生物电子器件无缝整合,哈佛大学新研究登《Nature》封面
  • 谷歌DeepMind发布DNA序列模型AlphaGenome,可分析1兆碱基,直击疾病根源
  • 每个Token都不被辜负!北大×亚马逊提出协同提示注意力机制,即插即用高效微调
  • 让LLM自己上网搞科研!WebDancer实现DeepResearch级自主推理
  • 北京内推 | 微软亚洲研究院招聘视觉生成/世界模型方向研究型实习生
  • 敢把电脑交给Agent?RiOSWorld基准重锤“智能助手”:风险行为多到数不过来!
  • 刚刚,OpenAI苏黎世办公室被Meta一锅端,三名ViT作者被挖走
  • 免费、开源!谷歌Gemini CLI彻底火了,平替Claude Code
  • 具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
  • 超30万奖金!聚焦“视觉深度鉴伪识别”技术挑战赛开幕!
  • 平扫CT+AI实现大规模胃癌早筛,浙肿、达摩院团队开发GRAPE,登Nature Medicine
  • 何恺明新身份:谷歌DeepMind杰出科学家
  • 首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
  • 灵宝CASBOT完成近亿元天使+轮融资,技术务实加速商业化落地
  • 小米 AI 眼镜官宣,将在今晚发布;微信小游戏月活突破 5 亿;稳定币第一股两日暴跌 24%
  • 再创全球最轻新纪录,vivo X Fold5旗舰折叠新品正式发布
  • ICML 2025 | 大语言模型竟然有“前瞻思维”?首个词元生成前便能预判全局输出
  • OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板
  • ACL 2025 | 告别Prompt玄学!新理论揭示大模型Prompt设计的奥秘与效能
  • 博士申请 | 香港科技大学(广州)Zhiqing Hong老师招收人工智能全奖博士/硕士/RA/实习生
  • 机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
  • 8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
  • 让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
  • 亚马逊云科技中国峰会召开,解码Agentic AI时代企业加速创新路径
  • 通用生物医学Agent,可由「任务」自主生成「工作流」,斯坦福、基因泰克等开发Biomni
  • 视频中开放世界目标计数:牛津大学VGG提出并开源CountVid模型及VideoCounT数据集
  • 重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
  • 提示词工程、RAG之后,LangChain:上下文工程开始火了!
  • ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
  • 具身智能的终极命题:是造「人」还是造「生产力」?
  • 刚刚,首个能在机器人上本地运行的具身Gemini来了
  • 如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
  • 雷军:YU7 不是拉高版 SU7;字节跳动辞退原豆包大模型负责人;美法院裁定使用版权内容训练 AI 合法 | 极客早知道
  • 任务太难,连ChatGPT都弃了!最强AI神器一键拆解,首测来袭
  • 合成数据>人工数据,绝对性能暴涨超10个点!仅需任务定义,高效微调大模型
  • 65亿「偷」来一个耳塞?OpenAI首款硬件被曝抄袭,苹果天才设计师翻车
  • 比修驴蹄还魔性!谷歌这7段纸片动画,看完焦虑没了,第2支直接封神
  • 讲得了课、押得中题、学习规划还能量身定制,真卷到点子上的只有它
  • Cache Me If You Can:陈丹琦团队如何「抓住」关键缓存,解放LLM内存?
  • ToMAP:赋予大模型「读心术」,打造更聪明的AI说服者
  • 重塑统一多模态理解范式!UNITE打破模态壁垒,横扫多模态检索基准
  • 探索多模态后训练最优解:MiMo-VL稳健优化 v.s. Seed-VL激进革命
  • ICML 2025 | 细粒度奖励建模:判别式策略优化下的Q-RM方法
  • 上海内推 | 上海人工智能实验室招聘大模型多智能体方向科研实习生
  • 众所周知视频不能P?北大施柏鑫团队、贝式计算CVPR研究:视频里轻松换衣服、加柯基
  • 清华等开源YOLOv13:基于超图增强的实时目标检测
  • 外国小哥徒手改装消费级5090,一举击败巨无霸RTX Pro 6000
  • 强化学习新发现:无需数学样本,仅游戏训练AI推理大增
  • ACL 2025 | 让小说角色 「活」起来!复旦BookWorld打造沉浸式小说世界模拟系统
  • 千里科技公布面向L3级、L4级别智驾方案全景路线图
  • 准确率72.46%!中南大学团队提出多源相似性融合模型MSSF,精准预测药物副作用频率
  • AI识别引起复杂疾病的关键基因组合,有望带来治疗新途径
  • AI 上新|3 秒钟,我用 YouWare,手搓了一个「Win98 版」极客公园
  • 立体几何难倒大模型!SolidGeo:首个多模态立体几何推理基准
  • 报名开启!别再一个人刷论文了,来ACL 2025论文分享会一起面对面交流
  • 3D VLA新范式!中科院&字节Seed提出BridgeVLA,斩获CVPR 2025 workshop冠军!
  • 雷军:将发布面向下一个时代的智能设备;特斯拉无人出租车安全问题引发关注;微信新版语音界面「丑」上热搜 | 极客早知道

人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展

图片

本文中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生,主要研究方向为基础模型的优化、泛化和可扩展性理论,导师为李崇轩副教授,论文为字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员,主要研究方向为视觉生成模型。李崇轩副教授为唯一通讯作者。

近年来,diffusion Transformers已经成为了现代视觉生成模型的主干网络。随着数据量和任务复杂度的进一步增加,diffusion Transformers的规模也在快速增长。然而在模型进一步扩大的过程中,如何调得较好的超参(如学习率)已经成为了一个巨大的问题,阻碍了大规模diffusion Transformers释放其全部的潜能。

为此,人大高瓴李崇轩团队和字节跳动Seed团队的研究员引入了大语言模型训练中的μP理论,并将其扩展到diffusion Transformers的训练中。μP通过调整网络不同模块的初始化和学习率,实现不同大小diffusion Transformers共享最优的超参,使得小模型上搜到的超参可以直接迁移到最终大模型上进行训练,从而极大地减小了超参搜索的耗费。

团队在DiT,PixArt和MMDiT(Stable Diffusion的基座)上进行了系统的大规模实验验证。在MMDiT的实验中,0.18B小模型上搜得的超参成功被用在18B大模型的训练中,并击败了人工专家的手调基线。其中,小模型超参搜索的计算量(FLOPs)仅是专家手调的3%左右。

团队已在近期开放在线论文,并开源代码。

图片
  • 论文链接:https://arxiv.org/abs/2505.15270

  • 代码仓库:https://github.com/ML-GSAI/Scaling-Diffusion-Transformers-muP

μP的背景和问题

μP全称为最大更新参数化(Maximal Update Parametrization),是Tensor Program无穷宽网络理论系列中的里程碑之作,相关结果已被理论证明适用于标准的Transformer架构。μP的算法实现简洁,对于应用最为广泛的AdamW优化器而言,μP只需要调整隐藏层权重的学习率,和输出层权重的系数以及初始化。μP在实际中被广泛发现能够实现不同大小的标准Transformer共享最优的超参,使得小模型上搜到的超参可以直接迁移到大模型,极大地减小了超参搜索的耗费。由于μP带来了稳定的超参迁移性质,它近年来已经被成功使用在大语言模型(标准Transformer)的预训练中。

然而,diffusion Transformers和标准Transformer存在较大的差异。从架构上来看,diffusion Transformers引入了额外的模块来处理并整合文本信息,如DiT中的adaLN block。从任务目标上来看,diffusion Transformers处理的是视觉的扩散学习任务,而标准Transformer主要处理的是语言的自回归学习任务。这两点差异意味着已有的μP形式及其超参迁移律在视觉diffusion Transformers中不一定成立。针对这一问题,团队从理论和实践上进行了系统的研究。

Diffusion Transformers的μP形式

团队首先从理论上研究了主流diffusion Transformers的μP形式,包括DiT,U-ViT,PixArt-α和MMDiT。Tensor Program理论系列中的结果表明,如果网络架构能够被Tensor Program中定义的算子表示,那么现有的μP形式就能成立。基于这个理论技术,我们证明了:即使主流diffusion Transformers的结构不同于标准Transformer,它们也能够被Tensor Program表示,因此现有的μP理论和相关实践可以被无痛迁移到这些主流diffusion Transformers上。我们的证明技术也可以被迁移到其它的diffusion Transformers做类似的分析。

总之,diffusion Transformers的μP方法论可以由下图总结。我们首先基于μP理论,调节不同权重的系数、初始化和学习率。然后,我们在一系列小模型上搜索得到最优的超参。最后,我们将最优的超参直接迁移到大模型的训练。

图片

基于μP扩展Diffusion Transformers:初探

首先,我们使用DiT网络在ImageNet数据集上系统地验证了:当网络宽度,数据批量大小和训练步数足够大时(如宽度达到144,批量大小达到256),超参便可以较为稳定地沿着不同的网络宽度,数据批量大小和训练步数进行迁移。这意味着我们能在网络宽度,数据批量大小和训练步数都更小的代理任务上搜索超参,然后迁移到最终大网络大数据的训练。

图片

然后,为了验证μP超参迁移的有效性,我们将最优的超参(学习率2^-10)直接迁移到DiT-XL-2的训练中,我们发现,当模型训练到2.4M步时,FID-50K就已经超过了原论文7M步最终的FID-50K结果,DiT-XL-2-μP的收敛速度是原论文的2.9倍。这向我们展现了利用μP迁移超参做扩展的良好前景。

图片

基于μP扩展Diffusion Transformers:大规模验证

图片

我们进一步在大规模的文生图任务上验证了μP扩展diffusion Transformers的有效性。我们首先考虑了流行的开源文生图模型PixArt-α,我们在0.04B的代理模型上搜索学习率,并迁移到最终0.61B大小PixArt-α的训练。其中,小模型搜索超参的计算量总和(FLOPs)仅为一次训练的5.5%。利用搜索得到的学习率,PixArt-α-μP在训练的过程中稳定地取得了比基线更好的效果。

图片

最后,我们考虑了SD3的基座模型MMDiT,并将验证的规模提高到了18B的量级。为了能够给社区带来更多的可信的实践经验,我们在 4个超参(学习率,梯度裁剪值,REPA loss的权重以及warmup的步数)上进行了多达80次的随机搜索,总搜索计算量(FLOPs)约是人工手调的3%。在0.18B模型上的超参搜索结果表明,我们学习率,梯度裁剪值,REPA loss都对结果有影响,其中学习率的影响仍是最为关键的。而warmup的步数则对结果影响不大。

图片

我们将0.18B模型上搜索的超参应用在了18B模型的训练上,不论从训练loss的变化还是从人工评测的结果,MMDiT-μP都稳定地超过了人工专家手调的基线,而μP的超参搜索FLOPs仅是人工手调的3%!

图片

经过这一系列系统的实验探索,我们证明了μP是科学扩展diffusion Transformers的有效手段,我们也相信μP会是未来基础模型扩展的必备利器。通过本工作的大量努力,我们希望让社区了解μP理论,拥抱μP实践,思考理论上最优的智能扩展范式(模型大小,数据量,推理时间)。我们也相信,放眼人工智能的长远未来,类似μP的底层理论的发展仍然是必不可少的,也必将会在未来的大规模实践中有着不可或缺的一席之地。

]]>

联系我们