动态列表

  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售
  • 北京内推 | 快手模型与应用部增长模型团队招聘大模型/推荐方向算法实习生
  • 不用教它撒谎,LLM也会“心口不一”:上海AI Lab揭露高风险下的模型欺骗行为
  • 当强化学习学会“跳步骤”:Sergey Levine团队重写值函数的递归逻辑
  • 当 ChatGPT 要开始「搞黄色」,我都不敢想......
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」
  • 李想谈万台MEGA召回:生命只有一次;传明年AirPods配摄像头+AI;神舟二十一飞船发射成功,对接速度创纪录|极客早知道

强化学习教父重出江湖, 生成式AI的时代要结束了?



  新智元报道  

编辑:倾倾
【新智元导读】过去两年,AI靠模仿人类席卷世界。但强化学习之父Richard Sutton却说:「GenAI的时代正在结束。」他带着图灵奖的荣光,加入一家几乎没人听过的公司——ExperienceFlow.AI,他要让AI不靠人类数据喂养,而靠「经验」觉醒。

11月初,ExperienceFlow.AI的CEO Giri ATG在X上发出了这样一条消息。

没有精致海报,没有宣传视频,

但在短短几小时内,这条看似平静的公告,被AI研究员、投资人疯狂转发。

在铺天盖地的模型demo与发布会中,它像一根细微的地震针,预示着另一场更深层的震动。

因为加入这家初创公司的,不是普通的科学家,而是强化学习的开创者、「Reinforcement Learning: An Introduction」的作者、 刚刚获得2024年图灵奖的Richard Sutton。

是他让AI第一次能够「从经验中学习」;如今,他回来了,要重新定义什么才叫「智能」。


强化学习教父归来:向生成式AI发起反击

在过去两年中,人工智能行业热闹至极。新的大模型不断发布,推理速度、参数量、生成能力一再刷新。

而此时,强化学习的奠基人Richard Sutton,却选择了沉默。

直到今年十一月,他重新出现。

ExperienceFlow.AI 宣布,Sutton将以首席科学官身份加入公司,并创建「超级智能研究实验室」。  这像一种新的讯号告诉AI行业智能的核心,不在模仿,而在学习。

Sutton的医生获誉无数。他曾与Andrew Barto共同获得2024年图灵奖,以表彰他们在强化学习领域的奠基性贡献。

他编写的「Reinforcement Learning: An Introduction」被誉为AI研究的圣经。

在ExperienceFlow.AI的新闻稿中,Sutton说:

学习是知识的导数。与生成式AI依靠人类提供数据不同,我们关注学习本身——从经验中创造还不存在的知识。

这句话明确划分出了两种路线。

生成式AI从人类文本中提取模式;而强化学习希望AI在环境中行动、感知、反馈,再从经验中总结规律。

Sutton在声明中写道:

我们正接近基于人类数据的生成式AI时代的终点,即将进入一个从经验中学习的新阶段。

他预计,当AI被人类数据喂养到极限后,模型能做的只是重复、推测、模仿。

而真正的智能,必须通过与世界的互动才能获得。

这正是强化学习的底层逻辑:智能体(agent)在环境(environment)中采取行动(action),得到奖励(reward),再据此调整策略(policy)。

学习来自行动,而非输入。

Sutton的回归,并不是对现有技术的否定,而是对AI学习方式的重新定义。

他认为,下一阶段的智能体不再依赖人类经验,而要从自己的经历中形成知识。

对整个行业而言,这不仅是一次技术转向,也是一场价值判断的变化——AI,不该只复述,而要开始理解。


ExperienceFlow:用「经验」重写智能的起点

ExperienceFlow.AI是一家成立不久的人工智能公司,总部位于旧金山。

它的定位十分明确:打造「经验驱动的去中心化超级智能」

联合创始人兼CEO Giri ATG坦言:

我们正启动一种全新的超级智能范式,它将解决通往通用人工智能(AGI)的最后一道关键难题。


我们的重点是真正的强化学习研究,它将推动持续学习、泛化能力以及基于模型的层级规划。

与当下依赖大规模语言模型的路线不同,ExperienceFlow认为智能的核心不在参数量,而在于「如何通过经验产生知识」。

他们提出的「经验驱动超级智能」,希望让AI在开放环境中持续探索、修正和积累,从而获得可迁移的认知结构。

Sutton打了一个浪漫的比喻:


学习的火花,是理解新领域并创造知识的能力。


这句话延续了他几十年来的理论主张。

ExperienceFlow想做的,是将强化学习从学术概念推向系统化实现。

它不仅是训练一个模型,而是要构建一种能自我生长的智能体架构——让模型能够从外部环境中吸取反馈,自我校正并形成长期记忆。

Giri ATG表示,这种「经验型智能」并非停留在研究层面,而是面向具体产业:

真正的超级智能将解锁与科学突破和经济增长直接相关的大多数现实应用场景,推动制造、医疗、金融、零售、物流、机器人等关键行业的发展。

在他看来,生成式AI在企业中的作用仍局限于文本、图像、代码的生成,而经验驱动的AI则可以承担自主决策与运营

公司称这种形态为「自主企业」:系统能够独立分析、规划、执行,并基于经验优化流程。

更重要的是,ExperienceFlow 强调去中心化的智能架构

与OpenAI或Anthropic的集中式模型不同,它允许企业与国家在自己的计算资源和私有数据上构建独立的智能体网络。

这种模式意味着,AI不再只是由少数科技公司掌控的集中式能力,而可以成为分布式的知识系统。

每个组织都能在自身环境中积累独特的经验,从而形成差异化的智能。

Giri ATG将这视为「下一轮算力与经济增长的引擎」:

这将推动全球范围内的计算、硬件和数据生态实现新一轮有机增长。

在他们看来,人工智能的下一阶段不再是追求语言能力,而是让机器学会如何从世界中学习。

当AI学完人类:经验时代的门正在打开

生成式 AI 的速度快到惊人。短短两年,它学会了写诗、写代码、写广告文案。

可当一切内容都能被生成,新的问题浮现了——它还能学什么?

Sutton给出了答案,是「学世界」。他在2019年就指出:

在七十年的AI研究中,最终赢的总是那些让机器自己学习的办法。

依靠人类经验喂养出来的智能,只能复述过去;真正的智能,必须在现实里试、在反馈中改、在错误里长大。

这也是他此刻重新出山的原因。

Sutton表示:

我们正接近基于人类数据的GenAI时代终点,正迈向一个从经验中学习的新纪元

这句话,不只一句口号。它是对整个AI行业的一次提醒——我们可能已经让模型学完了全部知识

语言模型靠的是人类文本,而人类语言的总量几乎已经被吸取殆尽。

算力再怎么翻倍、参数再这么膨胀,也只是有限的提升。

当LLM开始在重复自己的答案,AI研究者们重新回到那句老问题:

机器什么时候,能真正理解世界?

Sutton给出了一个答案。强化学习让AI不只是记住,而是能「行动」;不只是会「生成」,更要能「修正」。

它要不断的试错、奖励、再试错,积累起属于自己的经验。

这种学习方式更像人类成长的过程。没有人直接告诉你答案,而是一次次去做、去碰壁、再总结。

当GenAI的模仿红利见顶,经验学习的曲线,正在慢慢抬头。

这不是另一场参数竞赛,而是新的起点——AI从模仿人类,走向理解世界。

去中心化的智能版图:自主企业的雏形

在ExperienceFlow的世界里,AI不再是一项服务,而是一种主权。

与OpenAI或Anthropic那种集中式模型不同,ExperienceFlow想让每个企业、甚至每个国家,都能拥有自己的智能体。

这些智能体在各自的环境中学习、积累经验,并通过网络协作。AI不再从一个中心发号施令,而是分布式地成长

与其他 AGI平台不同,ExperienceFlow的系统首次实现真正的去中心化超级智能,为企业与国家客户提供完全的自主权和所有权。

AI的未来,可能不属于单一公司,而属于分布在全球的无数个智能体网络。

每个智能体都在自己的数据与经验中成长——制造企业的AI擅长生产优化,医疗系统的AI擅长诊断与预测,金融机构的AI能理解风险与市场。

它们的知识互不相同,却都在共同进化。

ExperienceFlow把这种组织形态称作「自主企业」。

在他们的设想中,未来的公司将不再依赖人类层层决策,而由一系列可以独立学习、协同判断的智能体构成。

它们能感知环境、制定目标、自动执行并持续优化。

ExperienceFlow.AI 的去中心化智能体系(EDNS)结构。企业的不同数据系统(记录、洞察、交互)经由图神经网络(GNN)整合后,由 Plan、Improve、Control 三类智能体持续生成实时决策,最终辅助管理层形成业务决策与成本、合规、营收等结果。

Giri ATG表示:

与其他 AGI平台不同,ExperienceFlow的系统首次实现真正的去中心化超级智能,为企业与国家客户提供完全的自主权和所有权。

真正的超级智能,将推动制造、医疗、金融、零售、物流、机器人等关键行业的持续增长,并成为全球经济的新引擎。

AI不再只是替代劳动力的工具,而是一种新的生产组织方式,甚至重新定义「企业」这个概念。

公司不再是由人来驱动的系统,而是人和AI共同学习、共同决策的生态。

在这种格局下,去中心化不只是技术结构,也是一种经济哲学。

它让智能的所有权回到本地,让知识的积累多样化、差异化。

每个组织、每个国家,都能训练出只属于自己的智能。这也是ExperienceFlow 所宣称的「AI主权」时代。

或许,这就是Sutton所说的下一阶段:AI不再依附于人类,而开始建立自己的秩序。

当每一个智能体都能从经验中生长,人类世界,也将被重新组织。

几十年来,AI一直在模仿。模仿人类的语言、行为、思维。

可ExperienceFlow和Sutton想讲的,是另一个词:经历。

当机器第一次从自己的行动中获得反馈,当它能在错误中修正、在环境中成长,智能就不再只是数据堆出来的幻觉。

如果下一阶段的 AI 不再依附于人类数据,而能自己学习、自己思考,我们,又该如何定义「智能」?

也许,真正的分界线不是模型规模,而是学习方式。

当AI学从经验中成长,它也会更加像人

参考资料:
https://x.com/lazyuniverse/status/1986098772934590741
https://www.businesswire.com/news/home/20251105563930/en/ExperienceFlow.AI-Announces-the-Launch-of-Its-Research-Laboratory-to-Advance-Experience-powered-Decentralized-Superintelligence


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652642887&amp;idx=3&amp;sn=a249244679bc3ab1be1f79cacbfb839b&amp;chksm=f0369c45e0e1d920923d812ec5c0039a78d341c8fa76046667ca3dbc13fe074dac58504dd593&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/BVUmm5R3aq&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们