动态列表

  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真

强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”

原创 让你更懂AI的 2025-10-13 23:23 北京

GCRL迈向可泛化的新阶段

还在把“目标”当一帧观测硬塞进网络?来自 UC Berkeley 强化学习大牛 Sergey Levine 团队的新作,直接把范式翻过来——用“从任意状态到目标的最优到达时间”来定义目标。理论上“既足以、又抗噪”,工程上则给出可落地的离线两阶段配方,在 OGBench 的 20 个到达类任务上稳步领先。

在强化学习中,目标条件强化学习(Goal-Conditioned RL, GCRL)是一类让智能体在给定目标的条件下学习到达路径的框架。

传统做法通常把目标 g 与当前状态 s 直接拼接输入网络,让策略或价值函数“自己去悟”如何到达。但这种简单方式很容易被外观噪声干扰:同一个目标换个背景或光照,模型学到的往往是“长什么样”,而不是“怎么到达”。

来自 UC Berkeley 的 Sergey Levine 团队这篇论文给出了更“纯粹”的回答——把目标从“外观表征”改写成“时间几何”,即任意状态 s 到目标 g 的最优到达时间(或其折扣对数)。

一旦目标被还原成这样一张“到达时间景观”,它既不受外观影响,又保留了实现最优策略所需的全部信息;在离线设定下,还能与主流 GCRL 配方自然衔接,形成“先学表征、再学策略”的清晰两阶段流程。

论文在多类状态与像素任务上的实验验证了这一理念的有效性:表现多数领先或并列最佳,即便在像素场景遇挫时,症结也被精确归因于“早/晚融合”的结构性选择,而非方法本身。

论文标题:

Dual Goal Representations

论文链接:

https://arxiv.org/pdf/2510.06714

研究背景

在目标条件强化学习(GCRL)中,智能体的任务是:在知道目标的前提下,想办法尽快、稳当地抵达它。最常见的套路是把目标 g 当作一帧和状态 s 一样的观测,直接拼接进网络,让模型自己去揣摩“怎么到达”。

这个思路简单,但在复杂环境里问题立刻暴露——观测中混杂了大量“到达无关”的外观细节,比如光照、背景、颜色、摄像角度。这些因素虽然不会影响可达性,却会让模型的学习被噪声拖住。于是,策略不仅泛化性差,对外观变化过度敏感,而且收敛也更慢。

从理想状态看,我们希望目标表征同时满足两件事:

一是足以(sufficiency)——只靠目标表征本身,就能支撑一条最优到达路径;

二是噪声不变性(noise invariance)——无论目标外观如何变化,它的“可达结构”保持一致。

Sergey Levine 团队提出的方案正是围绕这两点展开:把目标彻底从“视觉表征”抽离出来,重新定义为一张“到达时间地图”,也就是从任意状态 s 到目标 g 的最优到达时间(或折扣后的时间距离)。

这样,目标的身份被锚定在环境动力学之中,而不再依赖它“看起来像什么”。这便是论文提出的核心思想——对偶目标表征(Dual)

方法:把目标从“外观”改写为“时间几何”

2.1 核心定义

作者的核心思路非常直接:如果智能体的任务是“到达目标”,那目标本身就可以被定义为——从任意状态出发,到达它所需的最优时间。

在强化学习形式下,给定一个条件马尔可夫过程(CMP),对于任意策略 ,其目标条件价值函数为:

其中奖励定义为 ,即只在智能体到达目标时获得一次奖励 1。当目标被抵达后,环境进入吸收态。由此可得最优价值函数:

而它的折扣对数形式:

就表示从状态 s 到目标 g 的最优时间距离(在确定性环境中等价于最短步数)。于是,论文定义了一个函数:

称为对偶目标表征(Dual Goal Representation)。直观上,它为每个目标 g 构造一张“时间地图”,地图上的每个点都表示从任意状态出发,到达该目标需要多久。这种定义只依赖环境的可达结构,而与目标的视觉特征、光照或噪声无关。

▲ 图1. 把目标从“原始观测”改写为“所有状态到该目标的最优到达时间集合”。该表征仅依赖环境的内在动力学结构。

2.2 理论保证

论文给出了两条关键性质,分别用两个定理形式化说明 Dual 表征的理论完备性。

定理一:足以性 Sufficiency

存在一个确定性策略 ,它只需读取 Dual 表征 即可决策。

定义诱导策略 ,则有 对所有 成立。换句话说,只要知道目标的时间地图,就能复原最优策略。

定理二:噪声不变性 Noise Invariance

在扩展的 Ex-BCMP 框架下(即包含潜在状态 z 与外生噪声 e 的环境),若两个观测目标 源自同一潜在状态 ,则它们具有相同的 Dual 表征 。也就是说,Dual 表征天然对外观噪声保持不变

2.3 从函数到可训练模型

问题在于: 是一个“函数的函数”,在连续空间中难以直接实现。论文的解决思路是:用两个神经网络头,把状态和目标分别编码成有限维向量,并用一个简单函数 聚合:

其中 是状态头, 是目标头, 为聚合函数。这样, 就成了 的可学习近似版本。

论文默认使用最简单且具有普适逼近性的内积参数化:

    该形式被证明在紧集上可以近似任意两变量函数(Park et al., 2024b),同时在计算和训练上极为高效。

    当状态 与目标 在向量空间中越“对齐”,就代表从 的距离越短,因而 越小。这样模型能在隐空间里学习“时间几何”,而非“像素相似度”。

    2.4 两阶段训练流程

    为让理论落地,作者提出一个可在离线条件下实现的两阶段训练方案:先学表征,再学策略。

    ▲ 图2. Dual 的离线两阶段训练流程。第一阶段学习时间几何表征;第二阶段使用该表征训练下游策略。

    阶段 1 - 学习时间几何表征:输入 对;通过式 (1)(2) 训练 去拟合最优时间距离 ;得到稳定的 嵌入。

    阶段 2 - 学习下游策略或价值函数: 作为目标输入,结合离线经验重放训练 ;可直接复用常见 GCRL 框架(如 GCBC、GCFBC、IQL 等)。

    这种分步方式让表征学习在无环境交互下稳定收敛,并减少目标特征震荡。

    作者还实验验证了对照版本——直接使用 生成策略(即 Dual-Direct)。结果显示性能显著下降,说明表征学习与策略学习的解耦是必要的。原因在于:内积 的结构足够学习目标表征,但不足以直接输出策略。

    2.5 参数化对比与可解释性

    论文还对比了另一种参数化形式:对称度量(metric)方式 ,并令 。这种方式类似于以往的“时间度量嵌入”(temporal metric embedding)。

    在相同 GCRL 框架下测试结果见下表:

    ▲ 表1. 对比两种 Dual 参数化,结果显示内积式在平均性能和稳定性上更优。

    作者认为,内积形式能够捕捉状态-目标间的方向性,而度量式表达力受限,更适合判别任务。

    Dual 的整个方法链条实现了从“定义”到“落地”的闭环:理论上,它重新定义了目标的语义;工程上,内积参数化与两阶段流程让它可以直接在离线 GCRL 系统中复用。

    一句话概括:把目标从“看起来像什么”改写成“要多久能到”——强化学习终于学会了时间。

    实验结果

    论文在 20 个离线到达类任务上,对比了包括 GCBC、GCFBC、IQL 等多种代表性算法框架,评估 Dual 目标表征在 状态任务(state-based)与像素任务(pixel-based)两个场景中的性能表现。

    作者希望验证三个问题:

    1. 目标写成“到达时间”后,是否真的能提升泛化与稳定性?

    2. 两阶段方案(先学表征,再学策略)相比直接端到端训练,有多大优势?

    3. 在像素任务中,融合位置(early vs late fusion)是否会影响表现?

    3.1 状态任务

    ▲ 表2. 13 个 state-based 任务中,Dual 平均成功率最高,且跨算法稳定性最强。

    在 13 个低维任务上,Dual 在 GCBC、GCFBC、IQL 三类下游算法中都表现出最稳定的性能提升。传统“观测拼接”方法在不同算法间波动明显,而 Dual 曲线平滑、收敛更快——目标换成时间几何后,策略的学习路径变得更稳定。

      3.2 像素任务

      ▲ 表3. 7 个 pixel-based 任务中,Dual 在 5 项任务上领先。

      在 7 个像素任务中,Dual 拿下 5 个第一,但在 Visual Puzzle 任务上全员失效。问题被定位为融合位置而非方法本身——像素输入若采用 late fusion(先分开编码再拼接),容易丢失空间对齐;采用 early fusion (卷积前层融合)则显著提升性能。

        ▲ 表4. 早融合显著优于晚融合,验证像素任务性能差异来自结构设计。

        3.3 结构变体:内积最稳,两阶段必需

        ▲ 表5. Dual-Direct 与标准 Dual 对比。前者在多数任务上显著劣化,验证“两阶段解耦”的必要性。

        在参数化比较中,内积形式平均性能最佳; Dual-Direct 版本大幅退步,说明 f 本身不具备足够策略表达力, 必须通过第二阶段策略头单独学习。

        通过这些系统实验,可以看到:

          • 在状态任务中,Dual 稳定领先;

          • 在像素任务中,表现取决于融合结构;

          • 内积形式与两阶段流程最稳。

          Dual 让 GCRL 第一次真正摆脱了视觉依赖, 策略学习从“看清目标”转向“理解时间”, 实现了从外观表征到时间几何的范式迁移。

          结语

          过去几年,目标条件强化学习(GCRL)之所以停滞,很大程度上是因为“目标”这个输入本身就不稳定:它既要表达可达性,又被外观噪声牵制。

          Dual 的贡献,是第一次把这层语义彻底抽离出来——不再让模型去识别目标“是什么样”,而是去衡量“到达它要多久”

          这种转向看似细微,实则改变了问题的物理坐标。当目标以“时间几何”的形式存在,智能体学习到的就不再是视觉相关的模板匹配,而是关于环境可达性的结构性规律。

          理论上,它拥有可证明的“足以性”和“抗噪性”;工程上,通过内积参数化与两阶段离线训练,它被化简成一个能直接落地的统一配方。

          从 13 个状态任务到 7 个像素任务的实验结果也表明:这套理念不仅能跑通,而且更稳、更泛化。即便在像素场景的极限条件下,性能瓶颈也能被明确追溯到“早/晚融合”结构,而非方法本身。

          更重要的是,Dual 提供了一种新的思考路径——把目标视为时间结构的一部分,而不是感知空间的片段。在这样的表征下,强化学习的输入不再被动依赖观测,而开始主动刻画环境的可达性。

          这意味着:未来许多关于记忆、规划、策略泛化的研究,都可能不再围绕“看清目标”,而是围绕“理解时间”。

          也许这就是 Sergey Levine 团队真正想传达的信息——强化学习的下一个范式,不在于模型能看得多远,而在于它能多准确地预见“要多久能到”。

          更多阅读

          #投 稿 通 道#

          让你的文字被更多人看到

          如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

          总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

          PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

          📝 稿件基本要求:

          • 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

          • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

          • PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

          📬 投稿通道:

          • 投稿邮箱:hr@paperweekly.site

          • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

          • 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

          △长按添加PaperWeekly小编

          🔍

          现在,在「知乎」也能找到我们了

          进入知乎首页搜索「PaperWeekly」

          点击「关注」订阅我们的专栏吧

          ·

          阅读原文

          跳转微信打开

          联系我们