动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律

让你更懂AI的 2025-11-19 18:36 北京

参数越大越强的时代结束了?

2020年以来,OpenAI提出的 Scaling Law 引领着大模型的快速发展 —— 模型参数和训练数据规模越大,产生的智能能力越强。

然而进入 2025 年,训练开销不断扩增这一路径面临严峻的可持续发展问题。

OpenAI 前首席科学家 Ilya Sutskever 在公开演讲中指出,随着互联网公开可获取的语料接近枯竭,大模型预训练将无法持续(Pre-training as we know it will end)。因此,大多研究者开始探索大模型的新的发展路径。

清华大学研究成果大模型“密度法则” (Densing Law) 给出了新的观察视角。近日,该成果正式发表于 Nature 子刊《自然·机器智能》(Nature Machine Intelligence),为理解大模型发展规律提供了新的维度。

密度法则揭示了大语言模型的最大能力密度随时间呈指数级增长,2023 年 2 月至 2025 年 4 月,约每 3.5 个月翻一倍,这意味着每隔 3.5 个月,即可用一半参数量的模型实现当前最优性能

论文链接:

https://www.nature.com/articles/s42256-025-01137-0

受“摩尔定律”启发的“密度法则”

回顾计算机发展史,在摩尔定律的指引下,半导体行业持续改进制造工艺、提升芯片电路密度,实现了计算设备从 27 吨的 ENIAC 到数百克的智能手机的跨越,最终带来算力普惠和信息革命。

如今,全球拥有 13 亿台个人电脑、70亿部智能手机、180 亿台 IoT 设备和 2000 亿颗正在运行的 CPU。摩尔定律的核心不是增大芯片尺寸,而是提升电路密度——单位面积容纳更多计算单元。

受此启发,研究团队提出:大模型发展同样可以从“能力密度”的角度来观察和理解。正如芯片行业通过提升电路密度实现了计算设备的小型化和普惠化,大模型也在通过提升能力密度实现高效化发展。

大模型密度法则:大模型能力密度随时间呈指数上升趋势

研究团队基于一个核心假设:采用相同制造工艺、充分训练的不同尺寸模型,其能力密度相同。

在此基础上,研究团队选取基准模型并设定其密度为 1,作为衡量其他模型能力密度的基线。给定目标模型的能力密度被定义为:同能力的基准模型参数量与目标模型参数量的比值。

能力密度计算示意图

通过对 51 个近年来发布的开源大模型进行系统分析,研究团队发现了一个重要规律。大模型的最大能力密度随时间呈指数级增长,2023 年以来平均每 3.5 个月翻一倍。

这意味着,随着「数据-算力-算法」的协同发展,可以用更少参数实现相同的智能水平。

能力密度历时性变化图

根据密度定律,研究团队得出了若干重要推论。

推论1:同能力模型的推理开销随时间指数级下降

一方面,密度法则指出同能力的大模型参数每 3.5 个月减半。同时在推理系统优化方面,摩尔定律驱动芯片算力持续增强,而模型量化、投机采样、显存优化等算法技术也在不断突破,相同推理成本下,能够运行的模型大小不断提升。

实证数据显示,GPT-3.5 级模型 API 价格在 20 个月内下降 266.7 倍,约每 2.5 个月下降一倍。

GPT-3.5级模型API价格

推论2:大模型能力密度正在加速增强

以 MMLU 为评测基准的统计显示,ChatGPT 发布前能力密度每 4.8 个月翻倍,而 ChatGPT 发布后能力密度每 3.2 个月翻倍,密度增强速度提升了 50%。

这表明,随着大模型技术的成熟和开源生态的繁荣,能力密度提升正在加速。

以 MMLU 为基准测量的能力密度变化情况

推论3:模型压缩算法并不总能增强模型能力密度

研究团队对比了多个模型与其压缩版本的能力密度,发现除了 Gemma-2-9B 以外,如Llama-3.2-3B/1B、Llama-3.1-minitron-4B 等其他压缩模型的密度都低于原始模型。量化技术同样会降低模型性能和能力密度。

这一发现揭示了当前模型压缩技术的局限性:压缩过程中较小模型的训练往往不够充分,无法达到最优密度。

模型压缩对能力密度的影响

推论4:模型小型化揭示端侧智能巨大潜力

芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇,意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。

该团队发表在《Nature Communications》上的论文(Efficient GPT-4V level multimodal large language model for deployment on edge devices)刻画了这一变化趋势

基于密度法则的理论指导,清华大学、面壁智能团队持续推进高密度模型研发,发布了面壁小钢炮 MiniCPM、MiniCPM-V/o、VoxCPM 等一系列端侧高密度模型,凭借高效低成本的特性享誉全球,被评为 2024 年 Hugging Face 最多下载、最受欢迎的中国大模型。

截至 2025 年 10 月,模型下载量接近 1500 万次,GitHub 星标接近 3 万次。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们