ToolsAi

原创让你更懂AI的 2025-11-17 11:02 北京

导航智能体终于能“边走边记”了

引言

视觉-语言导航（Vision-and-Language Navigation, VLN）作为具身智能的关键研究领域，旨在赋予智能体遵循自然语言指令在未知三维环境中导航的能力。

近年来，多模态大语言模型（MLLM）的崛起极大地推动了 VLN 的发展，其卓越的语义理解能力为任务完成提供了强大支持。

然而，当前主流方法普遍依赖于构建显式记忆，如文本拓扑地图或缓存历史图像。此类方法面临着空间信息损失、计算冗余和记忆膨胀等严峻挑战，且未能充分利用 RGB 图像中内含的丰富三维几何线索。

受人类认知科学中大脑左右半球分别处理语义与空间信息并形成高效隐式记忆的启发，我们提出了 JanusVLN，一个创新的视觉语言导航框架。该框架首次引入了双重隐式神经记忆，将视觉语义与空间几何进行解耦，并分别建模为两个独立的、紧凑且固定大小的神经表征。

JanusVLN 仅需单目 RGB 视频流，便能赋予模型强大的三维空间推理能力，并通过高效的增量式更新机制，显著降低了计算开销，为构建下一代空间感知具身智能体开辟了全新范式。

论文标题：

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

论文链接：

https://arxiv.org/abs/2509.22548

项目主页：

https://miv-xjtu.github.io/JanusVLN.github.io/

代码地址：

https://github.com/MIV-XJTU/JanusVLN

问题与挑战：当前 VLN 记忆机制的瓶颈

VLN 任务的本质要求智能体在连续的三维物理世界中进行长时序决策，这对模型的记忆能力提出了极高要求。然而，当前基于 MLLM 的方法在记忆机制上存在三大核心瓶颈：

1. 空间信息损失与表征不精确：基于文本认知地图的方法将环境节点抽象为文字描述，难以精确表达物体间的相对方位和几何关系，导致关键视觉与空间信息的丢失。

2. 计算与推理效率低下：缓存历史视频帧的方法在每一步决策时，均需重复处理全部历史观测数据，造成巨大的计算冗余和推理延迟，严重阻碍了模型的实时应用潜力。

3. 记忆膨胀问题：无论是文本还是图像形式的显式记忆，其大小都会随导航时长的增加而线性甚至指数级增长，使得模型难以从庞大、杂乱的记忆中高效提取关键信息。

更深层次的矛盾在于，VLN 是一个内蕴的三维交互任务，而现有模型的视觉编码器大多继承自为二维图文对设计的 CLIP 范式，这使其“精于语义，拙于空间”。

尽管二维图像本身蕴含着丰富的透视、遮挡等三维线索，但现有模型普遍忽略了这些隐式的三维信息，从根本上限制了其在复杂场景下的空间推理能力。

核心方法：JanusVLN 的双重隐式记忆框架

为解决上述挑战，JanusVLN 创新性地提出了“双重隐式记忆”范式，其核心在于解耦的视觉感知、隐式的神经记忆表征和高效的增量式更新三大机制。

3.1 解耦的视觉感知：语义与空间的协同

JanusVLN 设计了一个双编码器架构，旨在让智能体同时具备“理解语义”和“感知空间”的能力：

2D 视觉语义编码器：采用先进的 Qwen2.5-VL 视觉编码器，负责从 RGB 图像中提取高级语义特征，回答“这是什么”的问题。
3D 空间几何编码器：引入预训练的 3D 视觉几何基础模型（VGGT），它能够在仅接收 RGB 视频的情况下，输出蕴含丰富三 D 结构信息的空间几何特征，回答“它在哪里，空间关系如何”的问题。这使得模型无需依赖昂贵的深度相机或激光雷达，即可获得强大的三维空间先验。

3.2 双重隐式神经记忆：以 KV 缓存为载体

我们创新地将记忆定义为神经网络深度处理后的高级抽象表征，而非原始输入。具体而言，我们将编码器注意力模块的键值对（Key-Value，KV）缓存作为隐式记忆的载体。JanusVLN 分别为语义和空间编码器维护独立的 KV 缓存，构成了双重隐式神经记忆。这种记忆形式紧凑、高效，是网络深度提炼的知识精华，从根本上解决了记忆膨胀问题。

3.3 高效的混合增量式更新

为了在固定大小的记忆中有效整合时序信息，我们设计了一种混合缓存更新策略：

滑动窗口：缓存最近 n 帧的 KV，确保模型对即时环境有敏锐的感知。
初始窗口：永久保留导航任务初始几帧的 KV。研究表明，这些初始帧如同“注意力接收器”（Attention Sinks），为整个任务提供了关键的全局锚点。

通过此机制，JanusVLN 在每一步仅需处理当前帧并与固定大小的隐式记忆交互，彻底避免了对历史帧的重复计算，实现了推理效率的巨大飞跃。

实验结果与分析

我们在主流的 VLN-CE 基准上进行了全面实验，验证了 JanusVLN 框架的有效性。

4.1 定量分析

如表 1 和表 2 所示，JanusVLN 在 R2R-CE 和 RxR-CE 两个数据集上均取得了 SOTA 性能：

超越多模态输入方法：与使用全景图、深度图等多种昂贵数据源的方法相比，JanusVLN 仅凭单目 RGB 输入，在成功率（SR）指标上实现了 10.5-35.5 个百分点的巨大提升。
超越现有 RGB-only 方法：与同样使用 RGB 输入、但采用显式记忆的 SOTA 方法（如 NaVILA，StreamVLN）相比，JanusVLN 在 SR 指标上分别提升了 10.8 和 3.6 个百分点，且使用了更少的辅助训练数据，充分证明了双隐式记忆范式的优越性。
强大的泛化能力：在更具挑战性的 RxR-CE 数据集上，JanusVLN 同样刷新了 SOTA 记录，展现了其强大的跨任务泛化能力。