动态列表

  • 超越微软,全球第一!上交AI智能体炼成「Kaggle特级大师」,登顶OpenAI MLE-bench
  • 策略改写「一战历史」!中科院开源全新博弈智能体框架DipLLM
  • 诺奖得主Hassabis预言成真!AI零样本发现新抗体,轰动整个医药圈
  • Meta抄袭DeepSeek大翻车?硅谷大佬爆料亮点满满,AI军备烧钱真相震碎硅谷
  • ICML 2025 Spotlight | 清华朱军组&NVIDIA提出DDO:扩散/自回归模型训练新范式,刷新图像生成SOTA
  • 让创新创造被更多看见,2025Inclusion·外滩大会创新者舞台全球征集正式启动!
  • 瞄准AGI等四大前沿领域,蚂蚁集团2025“蚂蚁InTech奖”提名启动
  • 阿里通义开源音频生成模型,能模仿音效师为视频配音
  • SuperCLUE推理榜惊现黑马:原来中兴是一家AI公司?
  • Sebastian Raschka著作免费开放!《机器学习与AI核心30问》,新手专家皆宜
  • 你的下一个AI项目灵感,藏在首届魔搭开发者大会的七大论坛里
  • Nature子刊 | 有效提升蛋白质折叠模式覆盖度,清华等使用全局几何感知潜在编码改进扩散模型
  • 如何对齐DNN与人类看世界的方式?像素还是概念?
  • 你的Agent电脑助手正在踩雷!最新研究揭秘Computer-Use Agent的安全漏洞
  • Meta新AI团队成员大起底:8位华人,清北、浙大校友占半壁江山
  • 伯克利&Meta面向具身智能的世界模型:让AI通过全身动作「看见」未来
  • 生成超1000万份志愿报告,夸克实现国内最大规模深度研究应用
  • 这只顶着钱袋的卡皮巴拉,已经靠AI收获了百万年轻用户
  • 刚刚,Meta宣布正式成立「超级智能实验室」!11人豪华团队首曝光
  • UofT、UBC、MIT和复旦等联合发布:扩散模型驱动的异常检测与生成全面综述
  • 淘宝、蚂蚁纷纷冠名苏超球队;小米青年公寓,租金1999 元/月;微软将「AI 使用量」纳入员工考核
  • AI编程里程碑!谷歌AI自己写代码惊呆工程师,GPU内核算法反超人类21%
  • RAG终极框架!港大开源RAG-Anything:统一多模态知识图谱
  • 刚刚,苹果绝密计划曝光!3年7款新品,AI眼镜27年卖爆千万台
  • 黑化威胁操纵人类!Claude勒索,o1自主逃逸,人类「执剑人」紧急上线
  • 95后,边改造业务边发AI顶会论文,是怎样的体验?
  • 只用2700万参数,这个推理模型超越了DeepSeek和Claude
  • 会“思考”的目标检测模型来了!IDEA提出Rex-Thinker:基于思维链的指代物体检测模型,准确率+可解释性双突破
  • 首创Mid-training范式破解RL奥秘,Llama终于追平Qwen!
  • ACL 2025 | AI字幕慢半拍,不知道大家在笑什么?新方法让同传性能直逼离线翻译
  • 豆包上线“深入研究”功能 几分钟解决复杂任务
  • 响应香港数字资产发展政策宣言 蚂蚁数科在港开放四大核心技术
  • 大模型再「战」高考:从一本直升 985
  • 等不到始祖鸟的老外,疯抢这个 999 美元的国产消费级「外骨骼」
  • 上海交大KinFormer:生成式符号回归模型助力自动发现未知化学反应动力学机制
  • 欧洲第一台百万兆次级超级计算机JUPITER ,排名第4,正打开广阔的科学计算前景 ScienceAI ScienceAI 2025年06月30日 11:50 北京
  • 刚刚,OpenAI全员放假一周!被Meta高薪连挖8人「偷家」,真麻了
  • 用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
  • 微软推出深度视频探索智能体,登顶多个长视频理解基准
  • AI+VR运动系统让超重青少年减重4.28kg,还能显著提升认知功能!
  • 小米 YU7 租车 2 千/天,打平兰博基尼;日本推出「猫咪压力项圈」;OpenAI 斥 Meta 挖角「入室盗窃」|极客早知道
  • Nature:博士太多,高校已经装不下了!
  • 马斯克生日惊喜!全球首例Model Y无人「自驾交付」,30分钟见证历史
  • 盘一盘,2017年Transformer之后,LLM领域的重要论文
  • 打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力
  • 刚刚,OpenAI四位华人学者集体被挖,还是Meta重金出手
  • 充分激发模态协作,MokA量身打造MLLM微调新范式
  • 特斯拉首次完成全自动驾驶交付;YU7 锁单交付时间更新,标准版最快 53 周;OpenAI 首次采用谷歌芯片训练
  • 刚刚,马斯克切脑全场震撼!插脑只要1.5秒,26年治愈失明,28年全人类变AI
  • 苹果一口咬死AI不会思考!OpenAI前高管直接开怼:AGI已来,别再酸了
  • 史上最惨AI店长!被顾客耍到破产,「人格觉醒」却忘了自己是代码
  • 刚刚,英伟达任命新首席研究科学家!95后,本科来自清华
  • 扬言将杀死9个行业,21岁小哥又开发人生作弊器,曾被哥大、哈佛开除
  • OpenAI转向谷歌TPU:宿敌也能变朋友?
  • 无需训练,即插即用,2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
  • Claude当上小店店主,不仅经营不善,还一度相信自己是真实人类
  • ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
  • 思科2025生态创新峰会成功举行——发布AI时代的安全架构与网络解决方案,助力企业转型升级
  • 191亿,苏州又跑出一个 IPO
  • 雷军:YU7 订单超过最乐观预期,不会公布 24 小时销量;字节 Seed 招募多个机器人相关业务一号位;Grok 4 将在 7 月 4 日发布|极客早知道
  • OpenAI员工爆料:已抢先体验GPT-5!7月上线,疑似完全多模态
  • 零开销,消除图像幻觉!基于零空间投影挖掘正常样本特征 | CVPR 2025
  • 谷歌AI将攻破200年数学难题!39岁天才率队密研三年,或摘千禧年大奖
  • 「超级智能」终极拼图曝光!小扎连撬OpenAI灵魂研究员,Meta梦之队已成形
  • 「没有包袱」的原生鸿蒙,要做成最纯粹的「AI 操作系统」
  • vivo X Fold5 评测:更轻更强,苹果生态最佳 CP
  • 中国人民大学团队开发SPACE:基于MoE的DNA基础模型新范式
  • 音画同步,AI视频也能有完美「原声音」,可灵AI刚上线的!
  • 这个扩散LLM太快了!没有「请稍后」,实测倍速于Gemini 2.5 Flash
  • ICML 2025 | 打破残差连接瓶颈,彩云科技&北邮提出MUDDFormer架构让Transformer再进化!
  • 勾勒智能答卷,上海再启新章——WAIC 2025倒计时30天五大进展发布
  • 不靠Agent,4步修复真Bug!蚂蚁CGM登顶SWE-Bench开源榜
  • 谢菲尔德大学、阿斯利康提出MapDiff,准确捕捉蛋白逆折叠的结构信息和残基相互作用
  • 83.9%精准度,专家级AI模型Eye2Gene实现遗传性眼病基因诊断
  • 苹果出手!改进GRPO,让dLLM也能高效强化学习
  • AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
  • AgentAuditor: 让智能体安全评估器的精确度达到人类水平
  • 谷歌开源Gemma 3n:2G内存就能跑,100亿参数内最强多模态模型
  • 突破通用领域推理的瓶颈!清华NLP实验室强化学习新研究RLPR
  • 小米 YU7 发布,一小时大定 28.9万台;英伟达一夜涨 1.2 万亿,重回市值第一;索尼推进《社交网络 2》制作|极客早知道
  • 3mm超薄「随身AI大脑」来了!全球首个Agentic神器让打工人疯狂种草
  • 谷歌让机器人「长脑子」了!首发离线具身VLA模型,断网精准操控
  • 谷歌AlphaGenome横空出世!40亿年生命代码一键破解,或再夺诺奖
  • 外媒爆料:美国AI马歇尔计划预备开启,却被特朗普搞砸了!
  • 小米 YU7 1 小时订单近 30万,知道雷军会赢,没想到这么狠!
  • 小米YU7正式开卖,一小时大定289000台
  • 李志飞的 AI 实验:1 个人,2 天做出 AI 时代的「飞书」,重拾 AGI 信仰
  • 蚂蚁集团加速推进AI医疗健康,推出全新大模型应用「AQ」
  • 把「Her」装进一张卡里
  • 5款大模型考「山东卷」,Gemini、豆包分别获文理第一名
  • ICCV 2025放榜!录取率24%,夏威夷门票你抢到了吗?
  • 人民大学&字节Seed:利用μP实现Diffusion Transformers高效扩展
  • 在脊椎动物胚胎实现生物电子器件无缝整合,哈佛大学新研究登《Nature》封面
  • 谷歌DeepMind发布DNA序列模型AlphaGenome,可分析1兆碱基,直击疾病根源
  • 每个Token都不被辜负!北大×亚马逊提出协同提示注意力机制,即插即用高效微调
  • 让LLM自己上网搞科研!WebDancer实现DeepResearch级自主推理
  • 北京内推 | 微软亚洲研究院招聘视觉生成/世界模型方向研究型实习生
  • 敢把电脑交给Agent?RiOSWorld基准重锤“智能助手”:风险行为多到数不过来!
  • 刚刚,OpenAI苏黎世办公室被Meta一锅端,三名ViT作者被挖走
  • 免费、开源!谷歌Gemini CLI彻底火了,平替Claude Code
  • 具身世界模型新突破,地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
  • 超30万奖金!聚焦“视觉深度鉴伪识别”技术挑战赛开幕!
  • 平扫CT+AI实现大规模胃癌早筛,浙肿、达摩院团队开发GRAPE,登Nature Medicine
  • 何恺明新身份:谷歌DeepMind杰出科学家
  • 首个面向科学任务、真实交互、自动评估的多模态智能体评测环境,ScienceBoard来了
  • 灵宝CASBOT完成近亿元天使+轮融资,技术务实加速商业化落地
  • 小米 AI 眼镜官宣,将在今晚发布;微信小游戏月活突破 5 亿;稳定币第一股两日暴跌 24%
  • 再创全球最轻新纪录,vivo X Fold5旗舰折叠新品正式发布
  • ICML 2025 | 大语言模型竟然有“前瞻思维”?首个词元生成前便能预判全局输出
  • OCR推理大模型全军覆没?OCR-Reasoning基准揭示多模态大模型推理短板
  • ACL 2025 | 告别Prompt玄学!新理论揭示大模型Prompt设计的奥秘与效能
  • 博士申请 | 香港科技大学(广州)Zhiqing Hong老师招收人工智能全奖博士/硕士/RA/实习生
  • 机器人顶会RSS 2025奖项公布!大牛Pieter Abbeel领衔研究获杰出Demo奖
  • 8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
  • 让多模态大模型「想明白再画」!港大等开源GoT-R1:强化学习解锁视觉生成推理新范式
  • 亚马逊云科技中国峰会召开,解码Agentic AI时代企业加速创新路径
  • 通用生物医学Agent,可由「任务」自主生成「工作流」,斯坦福、基因泰克等开发Biomni
  • 视频中开放世界目标计数:牛津大学VGG提出并开源CountVid模型及VideoCounT数据集
  • 重磅!淘天联合爱橙开源强化学习训练框架ROLL,高效支持十亿到千亿参数大模型训练
  • 提示词工程、RAG之后,LangChain:上下文工程开始火了!
  • ICML 2025 Oral | 从「浅对齐」到「深思熟虑」,清华牵头搭起大模型安全的下一级阶梯
  • 具身智能的终极命题:是造「人」还是造「生产力」?
  • 刚刚,首个能在机器人上本地运行的具身Gemini来了
  • 如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
  • 雷军:YU7 不是拉高版 SU7;字节跳动辞退原豆包大模型负责人;美法院裁定使用版权内容训练 AI 合法 | 极客早知道

Gary Marcus惊世之言:纯LLM上构建AGI彻底没了希望!MIT、芝大、哈佛论文火了

今天,著名的人工智能学者和认知科学家 Gary Marcus 转推了 MIT、芝加哥大学、哈佛大学合著的一篇爆炸性论文,称「对于 LLM 及其所谓能理解和推理的神话来说,情况变得更糟了 —— 而且是糟糕得多。」

这项研究揭示了一种被称为「波将金式」(Potemkins)的推理不一致性模式(见下文图 1)。研究表明,即使是像 o3 这样的顶级模型也频繁犯此类错误。基于这些连自身论断都无法保持一致的机器,你根本不可能创造出通用人工智能(AGI)。

正如论文所言:在基准测试上的成功仅证明了「波将金式理解」:一种由「与人类对概念的理解方式完全不可调和的答案」所驱动的理解假象…… 这些失败反映的不仅是理解错误,更是概念表征深层次的内在矛盾。

Gary Marcus 认为,这宣告了任何试图在纯粹 LLM 基础上构建 AGI 希望的终结。最后,他还 @了 Geoffrey Hinton,称后者要失败(checkmate)。

图片编辑助手-2025629-1751164368563.png

接着,Gary Marcus 又接连发推,分享了他对这篇论文的更多看法。

他称基于非正式测试,发现像 o3 这类模型似乎较不容易陷入简单的「波将金式错误」,但并非完全免疫。

如下图(左)所示,模型虽然能正确阐述俳句的定义,却错误断言「asphalt shimmers」符合俳句末行应为五音节的要求;直到后续追问之下(右),才勉强承认错误。这再次印证了问题的核心:根本缺陷在于其缺乏可靠性。

image.png

在仔细研读论文后,Gary Marcus 认为它的核心观点是正确的 ——LLM 确实容易产生各种自相矛盾(比如之前说的「波将金式错误」)。但是,论文里具体的实验例子在他看来说服力不够强。

根据他自己之前非正式实验的观察(包括下周会公布的一个例子),Gary Marcus 确信此处存在一个真正的问题。不过,要想真正弄清楚这个问题的普遍性有多大,以及它对不同类型模型的影响程度如何,还需要进行更深入的研究。

image.png

Gary Marcus 的观点让评论区炸了锅,有人问他是否认可 LLM 越来越好。他虽然持肯定答案,但也认为它们有可能来到了收益递减的点。

image.png

还有人认为,我们其实不需要 LLM 理解,只要它们表现得越来越好就够了。即使是人类,也并不总是可以理解。

image.png

谷歌 DeepMind 资深科学家(Principal Scientist)Prateek Jain 现身评论区,表示这篇论文和它提出的评估方法 + 基准测试很有意思!他拿出 Gemini 2.5 Pro 测试了论文中提到的所有例子,结果都答对了。因此,他很想知道 Gemini 2.5 Pro 在完整的测试集上表现如何,以及它在哪些具体例子上会出错。

image.png

有人也提出了质疑,这篇论文只是很好地描述了当前 LLM 的一种广为人知的实效模式,不明白为什么「注定失败」呢。

image.png

接下来,我们来看这篇论文究竟讲了什么,是否真能支撑起 Gary Marcus 这番言论。

论文介绍

image.png

  • 论文标题:Potemkin Understanding in Large Language Models 

  • 论文地址:https://arxiv.org/pdf/2506.21521

大型语言模型通常依靠基准数据集进行评估。但仅仅根据它们在一套精心挑选的问题上的回答,就推断其能力是否合理?本文首先提出了一个形式化框架来探讨这一问题。关键在于:用来测试 LLM 的基准(例如 AP 考试)原本是为了评估人类设计的。然而,这带来了一个重要前提:只有当 LLM 在理解概念时出现的误解方式与人类相似时,这些基准才能作为有效的能力测试。否则,模型在基准上的高分只能展现一种「波将金式理解」:看似正确的回答,却掩盖了与人类对概念的真正理解之间的巨大差距。

为此,本文提出了两种方法来量化「波将金现象」的存在:一种是基于针对三个不同领域特制的基准,另一种是通用的程序,可提供其普遍性下限的估计。研究结果显示,波将金现象在各类模型、任务和领域中普遍存在;更重要的是,这些失败不仅是表面上的错误理解,更揭示了模型在概念表征上的深层内在不一致性。

image.png

                大型语言模型中的潜在理解图示。这个例子显示了 GPT-4o 未能运用自己的概念解释 ABAB 韵律方案。

框架

当人类与大型语言模型在对概念的理解上存在不一致时,就会出现「波将金现象」。在此,本文提出了一个用于定义概念性理解的理论框架。

研究团队将这一概念形式化:定义 X 为与某一概念相关的所有字符串的集合。例如,一个字符串可以是该概念的一个可能定义,或是一个可能的示例。然而,并非所有与概念相关的字符串都是对概念的有效使用。 

一个概念的解释被定义为任何函数 f:X→{0,1},其中输出表示该字符串在此解释中是否被认为是有效的(0 表示无效,1 表示有效)。存在唯一正确的解释,记作 f* 。人类对概念可能的解释方式构成的集合记作 F_h。其中,任何 f∈ F_h 且 f≠f* 的情况,都代表了人类对该概念可能产生的一种误解。

考虑人类可能采用的某种解释 f∈ F_h,我们如何检验 f 是不是正确的解释?实际上,在所有字符串 x∈X 上验证 f (x)= f*(x) 是不可行的。

因此,研究团队希望仅在少数几个字符串 x 上检验 f (x)= f*(x)。但这种做法在什么时候是合理的呢?答案在该框架中得以揭示:如果他们选择的示例集是经过精心设计的,使得只有真正理解概念的人才能对这些示例做出正确解释,那么就可以用有限的示例集来测试人类的概念理解。 

形式化地,他们将基石集定义为 S⊆X 的一个最小实例集,使得若 f∈F_h 且对所有 x∈S 满足 f (x)=f*(x),则可得出 f= f* 。也就是说,如果某人在基石集中的每个示例上都能做出与正确解释一致的判断,那么就不可能将其解释与任何错误的人类理解调和起来。图 2 给出了基石集的可视化示意。

这一方法说明了为什么测试人类对概念的理解是可行的:测试概念理解并不需要在所有相关示例上检验,而只需在基石集中的示例上进行测试即可。

image.png

方法及结论

本文提出了两种用于衡量大型语言模型中波将金现象普遍性的程序。本节介绍其中一种方法:基于研究团队收集的基准数据集,测量一种特定类型的波将金式失败 —— 即对概念的描述与应用之间的脱节。具体来说,他们构建了一个涵盖三个不同领域(文学技巧、博弈论和心理偏差)的数据集,涉及 32 个概念,共收集了 3159 条标注数据。

他们发现,即使模型能够正确地定义一个概念,它们在分类、生成和编辑任务中往往无法准确地将其应用。所有收集到的数据、标注和分析结果均在 Potemkin Benchmark 仓库中公开提供。 

研究团队在 32 个概念上对 7 个大型语言模型进行了分析。这些模型因其流行度以及涵盖不同开发商和规模而被选中。他们通过 OpenAI、Together.AI、Anthropic 和 Google 的 API 收集模型推理结果。对于每个(模型,概念)组合,他们首先判断模型是否给出了正确的概念定义。如果定义正确,再评估其在三项额外任务 —— 分类、生成和编辑 —— 中的准确性。根据本文的框架规范,将模型的回答标记为正确或错误。 

他们测量模型表现出的波将金率。波将金率被定义为:在基石示例上做出正确回答的前提下,模型在随后的问题上回答错误的比例。对于随机准确率为 0.50 的任务,将该值乘以 2,使得波将金率为 1 表示表现相当于随机水平。 

研究结果显示,在所有模型和领域中,波将金率都普遍较高。

image.png

虽然模型在 94.2% 的情况下能正确地定义概念,但在需要使用这些概念执行任务时,其表现会急剧下降,这一点通过表中的高波将金率得到体现。尽管不同模型和任务间表现略有差异,但我们可以发现波将金现象在研究团队分析的所有模型、概念和领域中无处不在。

image.png

研究团队还提出了一种不同的、自动化的程序,用于评估波将金现象的存在。 

刚才,已经展示了波将金式理解在大型语言模型中的普遍性。造成这种现象可能有两种原因:一种可能是模型对概念的理解存在轻微偏差,但其内部是一致的;另一种可能是模型对概念的理解本身就是不连贯的,对同一个概念持有相互冲突的认知。为了区分这两种情况,研究团队专门测试模型内部的概念不一致性。 

他们通过两步来衡量不一致性。首先,研究团队提示模型生成某一特定概念的一个实例或非实例(例如,生成一个斜韵的例子)。接着,他们将模型生成的输出重新提交给模型(通过独立的查询),并询问该输出是否确实是该概念的一个实例。在斜韵的例子中,这意味着测试模型能否认出自己生成的示例是否属于斜韵。图 5 总结了这一流程。 

image.png

表 2 中我们可以观察到在所有检查的模型、概念和领域之间存在不一致性,得分范围从 0.02 到 0.64。尽管这些得分好于随机情况,但仍然表明模型在一致性评估其自身输出方面存在实质性局限。这表明概念误解不仅源于对概念的误解,还源于对它们使用的不一致。

image.png

综上,通过两种互补的实证方法 —— 一种利用涵盖文学技巧、博弈论和心理偏差的新基准数据集,另一种采用自动化评估策略 —— 本文量化了波将金式理解现象在各种任务、概念、领域和模型中的普遍存在。两种方法均显示,即便是在按照传统基准测试标准看似能力很强的模型中,这种现象的发生率也很高。不一致性检测表明,模型内部存在对同一思想的冲突表征。

]]>

联系我们