原创 让你更懂AI的 2025-10-13 23:23 北京
GCRL迈向可泛化的新阶段
还在把“目标”当一帧观测硬塞进网络?来自 UC Berkeley 强化学习大牛 Sergey Levine 团队的新作,直接把范式翻过来——用“从任意状态到目标的最优到达时间”来定义目标。理论上“既足以、又抗噪”,工程上则给出可落地的离线两阶段配方,在 OGBench 的 20 个到达类任务上稳步领先。
还在把“目标”当一帧观测硬塞进网络?来自 UC Berkeley 强化学习大牛 Sergey Levine 团队的新作,直接把范式翻过来——用“从任意状态到目标的最优到达时间”来定义目标。理论上“既足以、又抗噪”,工程上则给出可落地的离线两阶段配方,在 OGBench 的 20 个到达类任务上稳步领先。
在强化学习中,目标条件强化学习(Goal-Conditioned RL, GCRL)是一类让智能体在给定目标的条件下学习到达路径的框架。
传统做法通常把目标 g 与当前状态 s 直接拼接输入网络,让策略或价值函数“自己去悟”如何到达。但这种简单方式很容易被外观噪声干扰:同一个目标换个背景或光照,模型学到的往往是“长什么样”,而不是“怎么到达”。
来自 UC Berkeley 的 Sergey Levine 团队这篇论文给出了更“纯粹”的回答——把目标从“外观表征”改写成“时间几何”,即任意状态 s 到目标 g 的最优到达时间(或其折扣对数)。
一旦目标被还原成这样一张“到达时间景观”,它既不受外观影响,又保留了实现最优策略所需的全部信息;在离线设定下,还能与主流 GCRL 配方自然衔接,形成“先学表征、再学策略”的清晰两阶段流程。
论文在多类状态与像素任务上的实验验证了这一理念的有效性:表现多数领先或并列最佳,即便在像素场景遇挫时,症结也被精确归因于“早/晚融合”的结构性选择,而非方法本身。
论文标题:
Dual Goal Representations
论文链接:
https://arxiv.org/pdf/2510.06714
研究背景
在目标条件强化学习(GCRL)中,智能体的任务是:在知道目标的前提下,想办法尽快、稳当地抵达它。最常见的套路是把目标 g 当作一帧和状态 s 一样的观测,直接拼接进网络,让模型自己去揣摩“怎么到达”。
这个思路简单,但在复杂环境里问题立刻暴露——观测中混杂了大量“到达无关”的外观细节,比如光照、背景、颜色、摄像角度。这些因素虽然不会影响可达性,却会让模型的学习被噪声拖住。于是,策略不仅泛化性差,对外观变化过度敏感,而且收敛也更慢。
从理想状态看,我们希望目标表征同时满足两件事:
一是足以(sufficiency)——只靠目标表征本身,就能支撑一条最优到达路径;
二是噪声不变性(noise invariance)——无论目标外观如何变化,它的“可达结构”保持一致。
Sergey Levine 团队提出的方案正是围绕这两点展开:把目标彻底从“视觉表征”抽离出来,重新定义为一张“到达时间地图”,也就是从任意状态 s 到目标 g 的最优到达时间(或折扣后的时间距离)。
这样,目标的身份被锚定在环境动力学之中,而不再依赖它“看起来像什么”。这便是论文提出的核心思想——对偶目标表征(Dual)。
方法:把目标从“外观”改写为“时间几何”
2.1 核心定义
作者的核心思路非常直接:如果智能体的任务是“到达目标”,那目标本身就可以被定义为——从任意状态出发,到达它所需的最优时间。
在强化学习形式下,给定一个条件马尔可夫过程(CMP),对于任意策略 ,其目标条件价值函数为:
其中奖励定义为 ,即只在智能体到达目标时获得一次奖励 1。当目标被抵达后,环境进入吸收态。由此可得最优价值函数:
而它的折扣对数形式:
就表示从状态 s 到目标 g 的最优时间距离(在确定性环境中等价于最短步数)。于是,论文定义了一个函数:
称为对偶目标表征(Dual Goal Representation)。直观上,它为每个目标 g 构造一张“时间地图”,地图上的每个点都表示从任意状态出发,到达该目标需要多久。这种定义只依赖环境的可达结构,而与目标的视觉特征、光照或噪声无关。
▲ 图1. 把目标从“原始观测”改写为“所有状态到该目标的最优到达时间集合”。该表征仅依赖环境的内在动力学结构。
2.2 理论保证
论文给出了两条关键性质,分别用两个定理形式化说明 Dual 表征的理论完备性。
定理一:足以性 Sufficiency
存在一个确定性策略 ,它只需读取 Dual 表征 即可决策。
定义诱导策略 ,则有 对所有 成立。换句话说,只要知道目标的时间地图,就能复原最优策略。
定理二:噪声不变性 Noise Invariance
在扩展的 Ex-BCMP 框架下(即包含潜在状态 z 与外生噪声 e 的环境),若两个观测目标 源自同一潜在状态 ,则它们具有相同的 Dual 表征 。也就是说,Dual 表征天然对外观噪声保持不变。
2.3 从函数到可训练模型
问题在于: 是一个“函数的函数”,在连续空间中难以直接实现。论文的解决思路是:用两个神经网络头,把状态和目标分别编码成有限维向量,并用一个简单函数 聚合:
其中 是状态头, 是目标头, 为聚合函数。这样, 就成了 的可学习近似版本。
论文默认使用最简单且具有普适逼近性的内积参数化:
该形式被证明在紧集上可以近似任意两变量函数(Park et al., 2024b),同时在计算和训练上极为高效。
当状态 与目标 在向量空间中越“对齐”,就代表从 到 的距离越短,因而 越小。这样模型能在隐空间里学习“时间几何”,而非“像素相似度”。
2.4 两阶段训练流程
为让理论落地,作者提出一个可在离线条件下实现的两阶段训练方案:先学表征,再学策略。
▲ 图2. Dual 的离线两阶段训练流程。第一阶段学习时间几何表征;第二阶段使用该表征训练下游策略。
阶段 1 - 学习时间几何表征:输入 对;通过式 (1)(2) 训练 去拟合最优时间距离 ;得到稳定的 嵌入。
阶段 2 - 学习下游策略或价值函数:将 作为目标输入,结合离线经验重放训练 ;可直接复用常见 GCRL 框架(如 GCBC、GCFBC、IQL 等)。
这种分步方式让表征学习在无环境交互下稳定收敛,并减少目标特征震荡。
作者还实验验证了对照版本——直接使用 生成策略(即 Dual-Direct)。结果显示性能显著下降,说明表征学习与策略学习的解耦是必要的。原因在于:内积 的结构足够学习目标表征,但不足以直接输出策略。
2.5 参数化对比与可解释性
论文还对比了另一种参数化形式:对称度量(metric)方式 ,并令 。这种方式类似于以往的“时间度量嵌入”(temporal metric embedding)。
在相同 GCRL 框架下测试结果见下表:
▲ 表1. 对比两种 Dual 参数化,结果显示内积式在平均性能和稳定性上更优。
作者认为,内积形式能够捕捉状态-目标间的方向性,而度量式表达力受限,更适合判别任务。
Dual 的整个方法链条实现了从“定义”到“落地”的闭环:理论上,它重新定义了目标的语义;工程上,内积参数化与两阶段流程让它可以直接在离线 GCRL 系统中复用。
一句话概括:把目标从“看起来像什么”改写成“要多久能到”——强化学习终于学会了时间。
实验结果
论文在 20 个离线到达类任务上,对比了包括 GCBC、GCFBC、IQL 等多种代表性算法框架,评估 Dual 目标表征在 状态任务(state-based)与像素任务(pixel-based)两个场景中的性能表现。
作者希望验证三个问题:
1. 目标写成“到达时间”后,是否真的能提升泛化与稳定性?
2. 两阶段方案(先学表征,再学策略)相比直接端到端训练,有多大优势?
3. 在像素任务中,融合位置(early vs late fusion)是否会影响表现?
3.1 状态任务
▲ 表2. 13 个 state-based 任务中,Dual 平均成功率最高,且跨算法稳定性最强。
在 13 个低维任务上,Dual 在 GCBC、GCFBC、IQL 三类下游算法中都表现出最稳定的性能提升。传统“观测拼接”方法在不同算法间波动明显,而 Dual 曲线平滑、收敛更快——目标换成时间几何后,策略的学习路径变得更稳定。
3.2 像素任务
▲ 表3. 7 个 pixel-based 任务中,Dual 在 5 项任务上领先。
在 7 个像素任务中,Dual 拿下 5 个第一,但在 Visual Puzzle 任务上全员失效。问题被定位为融合位置而非方法本身——像素输入若采用 late fusion(先分开编码再拼接),容易丢失空间对齐;采用 early fusion (卷积前层融合)则显著提升性能。
▲ 表4. 早融合显著优于晚融合,验证像素任务性能差异来自结构设计。
3.3 结构变体:内积最稳,两阶段必需
▲ 表5. Dual-Direct 与标准 Dual 对比。前者在多数任务上显著劣化,验证“两阶段解耦”的必要性。
在参数化比较中,内积形式平均性能最佳; Dual-Direct 版本大幅退步,说明 f 本身不具备足够策略表达力, 必须通过第二阶段策略头单独学习。
通过这些系统实验,可以看到:
在状态任务中,Dual 稳定领先;
在像素任务中,表现取决于融合结构;
内积形式与两阶段流程最稳。
Dual 让 GCRL 第一次真正摆脱了视觉依赖, 策略学习从“看清目标”转向“理解时间”, 实现了从外观表征到时间几何的范式迁移。
结语
过去几年,目标条件强化学习(GCRL)之所以停滞,很大程度上是因为“目标”这个输入本身就不稳定:它既要表达可达性,又被外观噪声牵制。
Dual 的贡献,是第一次把这层语义彻底抽离出来——不再让模型去识别目标“是什么样”,而是去衡量“到达它要多久”。
这种转向看似细微,实则改变了问题的物理坐标。当目标以“时间几何”的形式存在,智能体学习到的就不再是视觉相关的模板匹配,而是关于环境可达性的结构性规律。
理论上,它拥有可证明的“足以性”和“抗噪性”;工程上,通过内积参数化与两阶段离线训练,它被化简成一个能直接落地的统一配方。
从 13 个状态任务到 7 个像素任务的实验结果也表明:这套理念不仅能跑通,而且更稳、更泛化。即便在像素场景的极限条件下,性能瓶颈也能被明确追溯到“早/晚融合”结构,而非方法本身。
更重要的是,Dual 提供了一种新的思考路径——把目标视为时间结构的一部分,而不是感知空间的片段。在这样的表征下,强化学习的输入不再被动依赖观测,而开始主动刻画环境的可达性。
这意味着:未来许多关于记忆、规划、策略泛化的研究,都可能不再围绕“看清目标”,而是围绕“理解时间”。
也许这就是 Sergey Levine 团队真正想传达的信息——强化学习的下一个范式,不在于模型能看得多远,而在于它能多准确地预见“要多久能到”。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·