动态列表

  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道
  • OpenAI「GPT门」事件引爆!Plus、Pro账户统统降配,偷换模型全网实锤
  • 突发,普林斯顿CS博士后猝然离世!清华本科毕业,刚完成论文答辩
  • 国内首次!8.9毫秒推理速度破纪录,1元打穿百万token
  • 惊现高管离职潮!马斯克亲信操盘xAI,千亿美元能填AGI野望?
  • 黄仁勋2小时反驳「AI泡沫帝国」论!英伟达将成全球首家十万亿市值公司
  • 云与AI,如何托举 Z 世代的创新野心
  • NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!
  • 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文
  • 北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
  • NeurIPS 2025 | 北大等提出C²Prompt:解耦类内与类间知识,破解联邦持续学习“双重遗忘”难题
  • InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”
  • 24.98万的理想i6,在特斯拉、小米、蔚来「后院」放了一把火
  • 小米 17 开售 5 分钟,破国产机销售纪录;Meta 研发机器人项目;国内发布「脑机接口标准」
  • Stability AI前CEO惊人预测:人类智力价值归零,只剩1000天!
  • 刚刚,奥特曼预言:人类「只剩」最后5年!
  • 免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」
  • 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」
  • 苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
  • 自动驾驶进入大模型时代,主机厂寻找「联合创始人」
  • 复旦等揭秘机器人“大脑”安全漏洞:一张图就能让它“宕机”,攻击成功率76.2%
  • DASFAA 2025 | 湖大等提出SCRA-VQA:给LLM一份“精装修”的图像描述,无需训练提升VQA性能
  • 苹果官方旗舰店也放假,商品不发货;腾讯推「老年打车」服务;车主酒驾,智能驾驶「报警」|极客早知道
  • 刚刚,ChatGPT Pulse上线!私人秘书不再是富人特权
  • 颠覆算力格局!全球首个星座级太空AI算力服务,在中国诞生
  • OpenAI 3万亿美元测试,AI首战44个行业人类专家!
  • JHU教授揭秘学术潜规则:普通博士如何打破鄙视链翻盘?
  • Hinton预言错了!年薪狂飙52万美元,AI没有「干掉」放射科医生
  • 168 元一年的「小红卡」,是小红书打破本地生活红海的钥匙
  • 当 5 亿玩家涌入 AI 的 3D 新世界
  • 普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
  • 128k死穴被击穿!Amazon爆改长上下文:段内压缩快4×,推理不掉点还更准
  • 博士申请 | 香港中文大学(深圳)冀晓强老师课题组招收人工智能全奖博士/硕士
  • AI 到底会不会做生意?1688 的答案让人惊喜
  • 找人不求人?Lessie 让「人脉玄学」变成算法游戏|AI 上新
  • 斯坦福推出VisualMimic:让机器人“眼观六路”,零样本完成复杂任务
  • 浙大发布RS3DBench:让遥感AI看懂3D世界,首个像素级对齐的大规模基准来了!
  • 小米 17 系列发布,4499 起;追觅「库里南」图片曝光;YU7 Max 成「百万最速」车
  • 刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
  • AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
  • Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步
  • 信息熵之后,清华提出状态熵!量化分析「系统智能性」的全新视角
  • 突发!Meta刚从OpenAI挖走了清华校友宋飏
  • 北京内推 | 中科院软件所数据科学研究中心招聘大语言模型算法实习生
  • 78条打穿1万条!上交大新范式告诉你:智能体训练靠“质”,不是靠“量”
  • KV缓存不再爆!清华姚期智团队重写注意力维度,长上下文更省更强 | NeurIPS 2025 Spotlight
  • 三款骁龙芯片曝光,高通谷歌联手打造「安卓 PC」时代
  • Instagram 月活破 30 亿,靠“短视频”和“私信”;2027款iPhone曝光;女子用ChatGPT选号中百万大奖,全部捐出
  • 一年4次迭代,狂堆GPU成真!微软AI冷液灌芯,散热暴涨3倍
  • 刚刚,阿里CEO吴泳铭发布「ASI宣言」:超级智能才是终局!
  • 前Meta工程师爆料:17人团队15个H-1B!一夜之间80%对手没了?
  • 秘塔AI放大招!「边想边搜边做」,内置20+智能体,想法一键实现
  • 震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失
  • 恶劣天气下的图像修复:南理工等提出LCDiff,让AI在雨雪雾天也能看得清
  • OCRBench v2 25年9月最新榜单发布!揭示多模态大模型文档智能真实水平
  • RL不再撒胡椒面!港科大 × 清华新作:只盯“规划token”,大模型推理力狂飙
  • NeurIPS 2025 | 甩掉文本CoT!FSDrive开启时空思维链,自动驾驶迈入视觉推理时代
  • 博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生
  • 3 天卖完今年所有产能,蔚来全新 ES8 如何实现逆风翻盘?
  • 超越 AGI,阿里剑指「超级智能」
  • Point-SSM:一种用于点云分析的极简状态空间模型,在医学点云任务上表现SOTA
  • 字节跳动OmniInsert炸场:无需掩码,任意物体“贴”进视频,效果碾压闭源SOTA!
  • ContextFlow:无需训练的视频编辑新范式,实现电影级魔改!
  • 忘了法拉利,一辆中国车正在改写游戏规则
  • 40亿投进去,换回了什么?全新问界M7的「值得」哲学
  • 华为问界新 M7,1 小时大定 3 万;李想:iPhone 17 顶配太丑,不买;防台风,腾讯「捆绑」QQ 企鹅塑像
  • 一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相
  • 告别胶水代码,5倍飚速!无问芯穹首次揭秘,Infra智能体蜂群登场
  • Depth Anything再出新作!浙大 & 港大出品:零样本,优化任意深度图
  • H-1B「天价签证」引爆恐慌!印裔精英返乡梦碎,2800亿市场剧震
  • 突发:甲骨文CEO下台!刚和OpenAI签下3000亿美元大单,或因路线斗争
  • 年轻一代创作者,学会与 AI 共舞
  • MiniCPM-V 4.5技术报告正式出炉!首个高刷视频理解多模态模型全解析
  • KDD 2025 | 从个股偏离到市场共振:UMI挖出股市非理性因子,显著提升预测精度
  • 一套框架搞定图像定制!IC-Custom统一「位置相关/无关」,万物迁移真落地
  • 北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
  • Yann LeCun团队新作LLM-JEPA:结合联合嵌入预测架构,显著提升大模型微调性能与效率,在代码生成任务上表现卓越
  • TPAMI | 数据增强还在“盲操”?南大提出IPF-RDA,让模型训练告别信息丢失
  • SilentStriker:无声击溃大模型
  • 小米 17 系列手机官宣 9 月 25 日发布;iPhone 17 标准款需求超预期,苹果已增产;罗永浩再回应债务问题:个人债务五年前就还完了,后面是主动还的公司债务|极客早知道

强化学习之父给LLM判死刑!站队LeCun:我们全搞错了



  新智元报道  

来源:学术头条
编辑:倾倾
【新智元导读】当全世界都在狂热追逐大模型时,强化学习之父、图灵奖得主Richard Sutton却直言:大语言模型是「死胡同」。在他看来,真正的智能必须源于经验学习,而不是模仿人类语言的「预测游戏」。这番话无异于当头一棒,让人重新思考:我们追逐的所谓智能,究竟是幻影,还是通向未来的歧路?

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

在日前参加的一个访谈中,强化学习之父、图灵奖得主Richard Sutton语出惊人:大语言模型(LLM)是一个错误的起点,是一条死胡同。

Sutton看来,真正的智能源自经验学习,通过行动、观察与反馈持续修正行为,实现目标;相比之下,大语言模型的预测能力更多是对人类行为的模仿,它没有独立的目标,也无法对外部世界的变化产生真正意义上的惊讶和调整。

他认为,想要真正可扩展的智能,必须从经验学习出发,而不是把大语言模型当作起点

这一犀利的观点,在如今人人追捧的大模型浪潮中,无疑是一剂清醒剂,促使我们从对模型「能力」的狂欢中跳脱出来,重新审视「智能」的本质与基础。

此次Sutton与国外科技博Dwarkesh Patel的对话非常精彩,充满了观点碰撞。访谈内容包括以下7个部分:

  • 大语言模型(LLMs)是死胡同吗?

  • 人类会进行模仿学习吗?

  • 经验时代

  • 现有架构在分布外泛化能力差

  • AI领域的惊喜

  • 「苦涩的教训」在AGI之后仍然适用吗?

  • AI的接替

图片

完整访谈详见:https://www.dwarkesh.com/p/richard-sutton

学术头条节选了该访谈的第一部分内容「Are LLMs a dead end?」,在不改变原文大意的前提下,做了一定的编辑。如下:

Dwarkesh Patel:Richard Sutton是强化学习的奠基人之一,也是许多主要技术的发明者,比如时序差分学习和策略梯度方法。凭借这些贡献,他获得了今年的图灵奖——被誉为「计算机科学界的诺贝尔奖」。Richard,恭喜您。

Richard Sutton:谢谢你,Dwarkesh。

Dwarkesh Patel:我的第一个问题是:我和我的听众更多是从大语言模型(LLM)的角度来思考人工智能。那么,如果从强化学习(RL)的角度来理解AI,我们可能错过了什么?

Richard Sutton:这确实是一个非常不同的视角。两者很容易被割裂开来,失去相互对话的能力。大语言模型如今非常火,生成式AI整体也成了热门话题。可我们的领域往往容易被潮流带偏,从而忽视最根本的问题。而我认为,强化学习才是真正的基础AI。

什么是智能?归根到底,是对你所处世界的理解。强化学习关注的就是理解世界,而大语言模型更多是在模仿人类,按人类的指令去做。它们并不是在思考「应该做什么」。

Dwarkesh Patel:你可能会认为,要想模仿互联网上数万亿的文本token,你必须先建立一个世界模型。事实上,这些模型似乎确实展现出了强大的世界建模能力。它们是我们在AI领域迄今为止创造的最好的世界模型,对吧?您认为还缺少什么?

Richard Sutton:我不同意你刚才说的大部分内容。模仿人类语言,并不等于在建立世界模型。那只是在模仿那些拥有世界模型的人类。我并不是想采取对抗的立场,但我想质疑「大语言模型具备世界模型」这个观点。一个真正的世界模型,应该能预测未来会发生什么。大语言模型能预测某个人会说什么,但没法预测世界上会发生什么。

借用Alan Turing的话来说,我们真正想要的,是一台能从经验中学习的机器。而「经验」,就是你实际生活中遭遇的事情:你采取行动,观察结果,并从中学习。而大语言模型学到的却是另一种模式:给定一个情境,它们学习某个人会怎么做,并隐含地暗示你应该照着那个人的做法去做。

Dwarkesh Patel:不知道您是否认同,我想关键点或许在于,有人认为模仿学习能够为模型提供一种先验知识,让它们在进入您所谓的「经验时代」之前,就已经具备一种合理的解决问题的能力。这样一来,它们就能在一些情况下给出正确答案,而后续的经验学习也可以建立在这个基础上。您认同这种看法吗?

Richard Sutton:不。我理解这是从大语言模型出发的观点,但我不认为这是一个好观点。要成为某事的先验,必须有一个真实的东西存在。先验知识应该是实际知识的基础。什么是实际知识?在大语言模型中,没有对实际知识的定义。是什么让一个动作成为一个好的动作?

真正重要的是持续学习。「持续」意味着你必须在与世界的正常交互中不断学习。而在正常的互动过程中,必须有某种方式来判断什么是对的。

在大语言模型的设置中,是否存在判断正确表达的方式?当你发出某种表达时,无法获得关于正确表达的反馈,因为根本不存在对正确表达的定义。它们是没有目标的。所以一句话和另一句话没有对错之分。没有什么正确之说。

它没有ground truth。如果没有ground truth,就不可能有先验知识,因为先验知识本应是关于真相(truth)是什么的提示或初始信念。世间本无绝对真理,亦无绝对正确的言论。在强化学习中,有正确的话语要说,有正确的动作要做,正确的事就是能够获得奖励的事。

我们对正确的事是有定义的,因此可以预先掌握或通过他人获取关于正确的事的知识。然后我们可以去验证它,因为我们知道什么是真正正确的事。

举一个简单例子:当你尝试建立世界模型时,你会预测会发生什么,然后观察结果。这中间存在ground truth。但大语言模型没有这种ground truth,它们没法预测接下来真实会发生什么。

比如在一场对话中,大语言模型回复了某句话,它无法预测对方会如何回应,或者回应什么。

Dwarkesh Patel:我认为它们可以。你直接问它们,「你预计用户可能会有什么回应?」它们会给出一个预测。

Richard Sutton:不,那只是对问题的回答,而不是有意义的预测。它们不会对结果感到惊讶。即便事实和它们所谓的「预测」不符,它们也不会因为发生了意料之外的事情而改变。要学习到这一点,它们必须做出调整。

Dwarkesh Patel:这种能力在某些上下文中确实存在。例如,观察一个模型进行「思维链」(CoT)是很有趣的。假设它正在尝试解决一个数学问题。它会说:「好吧,我首先要用这种方法来解决这个问题。」它会把这个写出来,然后说:「哦等等,我刚刚意识到这在概念上是解决问题的错误方法。我要用另一种方法重新开始。」

这种灵活性在上下文中是存在的,对吧?您是否另有想法,还是您只是认为需要将这种能力扩展到更大范围?

Richard Sutton:我只是说,他们根本无法对接下来会发生什么做出任何有意义的预测。他们不会对后续发展感到意外。即使发生变故,他们也不会根据事态发展做出任何调整。

Dwarkesh Patel:这不就是「下一个token预测」(next token prediction)吗?预测接下来会是什么,然后根据意外情况进行更新?

Richard Sutton:不一样。下一个token预测的只是它们接下来要说什么,是一种输出动作,而不是对外部世界的预测。

关键还是在于,它们缺乏目标。对我来说,拥有目标是智能的本质。如果一个系统能实现目标,那它就是智能的。我赞同John McCarthy的定义:智能就是达成目标的计算能力。没有目标,它就只是一个行为系统,没有特别之处,算不上智能。你同意大语言模型没有目标吗?

Dwarkesh Patel:不,它们有目标。

Richard Sutton:目标是什么?

Dwarkesh Patel:下一个token预测。

Richard Sutton:那不是一个目标。它不能改变世界。预测Token,本身不会对token产生影响。

Dwarkesh Patel:是的,我同意。它不是一个关于外部世界的目标。

Richard Sutton:所以,那不是实质性的目标。你不能说,一个只是静静预测并因预测准确而满足的系统,是有目标的。

Dwarkesh Patel:我更想问的是,为什么您认为在大语言模型之上做强化学习不是一个可行的方向?毕竟我们已经能赋予这些模型解决复杂数学问题的目标。

例如, 它们已经能在国际数学奥林匹克竞赛(IMO)上拿到金牌,这意味着它们确实在追求「正确解题」这个目标。为什么不能把这种能力扩展到其他领域呢?

Richard Sutton:数学问题是不同的。构建物理世界的模型,与在数学中演绎推理、计算结果,完全是两回事。经验世界必须通过交互去学习,需要从结果中得到反馈。而数学更偏向计算,更像是标准的规划,目标比较清晰:找到证明。某种意义上,它们被赋予了「找到证明」的目标。

Dwarkesh Patel:您在2019年写了一篇题为《惨痛的教训》(The Bitter Lesson)的文章,这也许是AI历史上最具影响力的文章。如今,人们正把它作为扩大大语言模型规模的依据,因为在他们看来,这是我们目前唯一能找到的可扩展方案,就是用海量算力去探索世界。有趣的是,您却认为大语言模型并没有真正吸取「苦涩的教训」。

Richard Sutton:大语言模型是否是「苦涩的教训」的一个案例,这是一个有趣的问题。它们显然是一种利用大规模计算的方法,这种计算可以随着互联网数据的极限扩展。但它们也是一种融入大量人类知识的方式。这确实是个值得探讨的问题——既涉及社会学层面,也关乎产业未来。它们是否会触及数据极限,最终被那些仅凭经验而非人类知识就能获取更多数据的新事物所取代?

在某些方面,这正是「苦涩的教训」的典型案例。我们向大语言模型输入的人类知识越多,它们的表现就越出色。这令人欣慰。然而,我期望会出现能够从经验中学习的系统。这种系统可以表现得更好,也更具可扩展性。那时,人类知识驱动的系统终将被纯粹依靠经验与计算训练的系统所取代——这又将成为「苦涩的教训」的另一例证。

Dwarkesh Patel:在我看来,这好像不是核心分歧。我认为那些人也认同,未来绝大多数的计算将来自从经验中学习。他们只是认为,支撑这种学习的基础架构——即为实现未来经验学习或在职学习而注入计算能力的起点——将是大语言模型。我还是不明白,为什么这根本就是错误的起点,为什么我们需要一个全新的架构来开始进行经验上的、持续的学习?为什么我们不能从大语言模型开始做这件事呢?

Richard Sutton:在每一个「苦涩的教训」的案例中,你都可以先从人类知识入手,然后再去做那些可扩展的事情。理论上,这并不算错误。但实践中,它几乎总是行不通。因为人们会被困在人类知识驱动的方法中,很难跳出来。最终,这些方法总会被真正可扩展的途径超越。

Dwarkesh Patel:那么,真正可扩展的方法是什么?

Richard Sutton:就是从经验中学习。尝试各种做法,观察哪些有效。不需要有人告诉你。前提是,有一个目标,没有目标,就没有对错或好坏之分,而大语言模型试图在没有目标或优劣判断的情况下运作。这就是一个错误的起点。

参考资料:
强化学习之父:大语言模型是一个错误的起点
本文转自学术头条,若二次转载请联系原作者


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652631110&amp;idx=3&amp;sn=66ff00dab8a3951f1183f08d9af96421&amp;chksm=f0d5c7b6f1f886969ee01917b5add5491593a961492ec683511564cfbbd41a64e81476a2daa7&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/0XbJEOni3S&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们