动态列表

  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售

终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」



  新智元报道  

编辑:元宇
【新智元导读】大模型「灾难性遗忘」问题或将迎来突破。近日,NeurIPS 2025收录了谷歌研究院的一篇论文,其中提出一种全新的「嵌套学习(Nested Learning)」架构。实验中基于该框架的「Hope」模型在语言建模与长上下文记忆任务中超越Transformer模型,这意味着大模型正迈向具备自我改进能力的新阶段。


「灾难性遗忘」,是神经网络最根深蒂固的毛病之一,比如:

· 刚学会减法,就忘记了以前学到的加法;

· 切换到一个新游戏,模型在前一游戏的得分就会掉到随机水平;

· 微调大模型,常出现「风格漂移」与「旧知识遗忘」现象

……


它的存在,使得大模型难以像人类那样持续学习。

在过去十年中,得益于强大的神经网络结构及其训练算法,机器学习取得了惊人的进步。

但「灾难性遗忘」的老毛病并没有被根治。

为破解这一难题,来自谷歌的研究人员提出了一种持续学习的全新范式——嵌套学习(Nested Learning),并且已被NeurIPS 2025接收。

论文地址:https://abehrouz.github.io/files/NL.pdf

「嵌套学习」将模型视为一系列更小的、相互嵌套的优化问题,每个问题都有其独立的内部工作流程。

这样的设计旨在缓解甚至完全避免大模型的「灾难性遗忘」。


破解「灾难性遗忘」根源

在「持续学习」与「自我改进」方面,人类大脑无疑是黄金标准。

它通过「神经可塑性」不断重构自身结构,以应对新的经验、记忆与学习任务。

缺乏这种能力的人,会陷入类似「顺行性遗忘」的状态——只能依赖即时情境而无法积累知识。

当前的大模型同样存在类似局限:

它们的知识要么局限于输入窗口的即时上下文,要么被固定在预训练阶段学到的静态信息中。


这正是大模型出现「灾难性遗忘」的根源——在学习新任务时会牺牲对旧任务的掌握能力。

这也是长期困扰机器学习的核心问题。

简单地不断用新数据更新模型参数的方法,往往会导致「灾难性遗忘」。

研究者通常通过修改网络结构(Architecture Tweaks)或优化算法(Optimization Rules)来缓解这种问题。

然而这样做,长期存在一个误区:我们一直将模型结构(网络架构)与优化算法视作两个独立的部分。

这阻碍了统一且高效学习系统的构建。

在论文中,研究人员提出了「嵌套学习」,打破了结构与算法的界限,以弥合二者之间的鸿沟。

也就是说「嵌套学习」不再将机器学习模型视作一种单一、连续的过程,而是一个由多层相互关联的优化问题组成的系统,这些问题同时进行优化。

研究人员认为,「模型结构」与「训练规则」本质上是同一概念,只是处于不同的「优化层级」上,每个层级都有独立的信息流动与更新速率。

通过识别这种内在结构,使得我们能够构建更深层的学习组件,从而解决像「灾难性遗忘」这类长期难题。

为了验证这一理论假设,研究人员提出了一个概念验证型的自我修正架构,命名为「Hope(希望)」。

该模型在语言建模任务中表现出色,并在长上下文记忆管理上优于当前最先进的模型。


嵌套学习的新范式

在嵌套学习的框架下,一个复杂的机器学习模型,是由多个一致且相互连接的优化问题组成的系统。

这些优化问题可以是层层嵌套的,也可以并行运行。

每个内部优化子问题,都有自己独立的信息,即其学习所依赖的信息集合。

这一视角意味着:现有的深度学习方法,从本质上是在压缩其内部信息流。

嵌套学习允许我们设计出具备更深计算深度的学习组件。

为了说明这一范式,研究人员以「联想记忆」为例,这是一种能够通过一个刺激唤起另一个记忆的能力,就像我们看到一张脸就想起一个名字。

研究人员推论,在训练过程中,尤其是「反向传播」阶段,可以被建模为一种联想记忆。该模型学习将数据点映射到其对应的局部误差值,该局部误差值衡量了该数据点的「惊奇度」或「意外性」。

根据前人研究,研究人员发现关键的网络结构组件,比如Transformer模型的「注意力机制」,也可形式化为简单的联想记忆模块,用于学习序列中各个token之间的映射关系。

如上图所示,大脑中统一且可重用的结构以及多时间尺度的更新是人类持续学习的关键组成部分。

嵌套学习允许大脑的每个组成部分进行多时间尺度的更新,同时表明诸如Transformer等众所周知的架构,实际上是具有不同更新频率的线性层。

嵌套学习模型中的统一结构与多频率更新机制,与人脑的神经波动与神经可塑性结构十分相似。

它使我们能够在人工模型中定义「多时间尺度更新」:每个学习组件可在不同频率下更新参数。

通过定义「更新频率」,即每个组件参数被调整的频率,我们可以将这些优化问题组织成有序的层级结构。

这一结构正是嵌套学习范式的核心。


嵌套学习的应用

嵌套学习视角,为我们提供了改进现有算法和架构的原则性方法:

深度优化器(Deep Optimizers)

嵌套学习将优化器(Optimizer,例如基于动量的优化器)视为一种联想记忆模块。

这使我们能从联想记忆的角度重新设计优化算法。

传统优化器通常依赖「点积相似度」来衡量样本间相似性,但这一机制无法考虑样本间的复杂关系。

通过将优化目标改为标准损失函数,研究人员提出了新的动量更新公式,使优化过程对不完美数据更具鲁棒性。

连续记忆系统(Continuum Memory Systems)

在标准的Transformer模型中,序列建模层承担短期记忆,保存当前上下文信息;而前馈神经网络层则充当长期记忆,存储训练前的知识。

嵌套学习扩展了这一思想,提出「连续记忆系统」,这是一种由多个模块组成的记忆谱系,每个模块以不同频率进行更新,这为持续学习创建了一个更加丰富、高效的记忆系统。

Hope:具备连续记忆的自我修正架构

研究人员基于以上嵌套学习原则设计了「Hope」模型,它是「Titans架构」的改进版本。

Titans架构是一种长期记忆机制,会根据记忆的「惊奇度」来优先保留信息。

但它仅支持两层参数更新,因此只能实现一阶的「上下文内学习」。

上图比较了Hope与Transformers的架构主干。

相比之下,Hope是一种可自我修改的递归架构,能实现无限层级的上下文内学习。

它还结合了连续记忆系统(CMS),能够扩展到更大的上下文窗口。

换言之,Hope可以通过自指过程优化自身记忆,形成具有无限嵌套学习层级的架构。

研究人员进行了多组实验,来评估深度优化器与Hope架构在语言建模、长上下文推理、持续学习及知识整合等任务上的表现。

实验结果显示:

在常用的语言建模与常识推理任务上,Hope相较现代递归模型与标准Transformer模型展现出更低的困惑度与更高的准确率。

在长上下文任务中,Hope与Titans模型均显著优于TTT与Mamba2,证明连续记忆系统能更高效地处理超长序列信息。

Hope框架在标准基准上表现优于现有模型,印证了当架构与算法被统一后,学习系统可以变得更具表现力、更高效、更具自我改进能力。

这意味着,我们对深度学习的理解迈出了新的一步。

通过将「模型结构」与「优化过程」统一为一个连贯的、层层嵌套的优化系统,Hope框架为模型设计提供了一种新范式。

这一发现,为弥合当前大模型遗忘特性与人脑持续学习能力之间的差距奠定了坚实基础,或许将有助于破解大模型「灾难性遗忘」的根源性问题。


作者介绍

Peilin Zhong

Peilin Zhong

Peilin Zhong是谷歌纽约(Google NYC)算法与优化团队的一名研究科学家,该团队由Vahab Mirrokni领导。

他的博士毕业于哥伦比亚大学,师从Alex Andoni、Cliff Stein及Mihalis Yannakakis教授,本科毕业于清华大学交叉信息研究院(姚班)。

Peilin Zhong致力于理论计算机科学,尤其侧重于算法的设计与分析。他的具体研究方向有并行与大规模并行算法、Sketching算法、流式算法、图算法、机器学习、高维几何、度量嵌入等。

参考资料:
https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652643250&amp;idx=1&amp;sn=63e313dad3756b32394e4b5a61fecc78&amp;chksm=f0086feec7f4060c4cd718f89c0b8ad9b6c28e952ec04329cf443aad353a091cc1420253dee0&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/0gUGZmHJdO&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们