原创 让你更懂AI的 2025-11-17 11:02 北京
导航智能体终于能“边走边记”了
引言
视觉-语言导航(Vision-and-Language Navigation, VLN)作为具身智能的关键研究领域,旨在赋予智能体遵循自然语言指令在未知三维环境中导航的能力。
近年来,多模态大语言模型(MLLM)的崛起极大地推动了 VLN 的发展,其卓越的语义理解能力为任务完成提供了强大支持。
然而,当前主流方法普遍依赖于构建显式记忆,如文本拓扑地图或缓存历史图像。此类方法面临着空间信息损失、计算冗余和记忆膨胀等严峻挑战,且未能充分利用 RGB 图像中内含的丰富三维几何线索。
受人类认知科学中大脑左右半球分别处理语义与空间信息并形成高效隐式记忆的启发,我们提出了 JanusVLN,一个创新的视觉语言导航框架。该框架首次引入了双重隐式神经记忆,将视觉语义与空间几何进行解耦,并分别建模为两个独立的、紧凑且固定大小的神经表征。
JanusVLN 仅需单目 RGB 视频流,便能赋予模型强大的三维空间推理能力,并通过高效的增量式更新机制,显著降低了计算开销,为构建下一代空间感知具身智能体开辟了全新范式。
论文标题:
JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation
论文链接:
https://arxiv.org/abs/2509.22548
项目主页:
https://miv-xjtu.github.io/JanusVLN.github.io/
代码地址:
https://github.com/MIV-XJTU/JanusVLN
问题与挑战:当前 VLN 记忆机制的瓶颈
VLN 任务的本质要求智能体在连续的三维物理世界中进行长时序决策,这对模型的记忆能力提出了极高要求。然而,当前基于 MLLM 的方法在记忆机制上存在三大核心瓶颈:
1. 空间信息损失与表征不精确:基于文本认知地图的方法将环境节点抽象为文字描述,难以精确表达物体间的相对方位和几何关系,导致关键视觉与空间信息的丢失。
2. 计算与推理效率低下:缓存历史视频帧的方法在每一步决策时,均需重复处理全部历史观测数据,造成巨大的计算冗余和推理延迟,严重阻碍了模型的实时应用潜力。
3. 记忆膨胀问题:无论是文本还是图像形式的显式记忆,其大小都会随导航时长的增加而线性甚至指数级增长,使得模型难以从庞大、杂乱的记忆中高效提取关键信息。
更深层次的矛盾在于,VLN 是一个内蕴的三维交互任务,而现有模型的视觉编码器大多继承自为二维图文对设计的 CLIP 范式,这使其“精于语义,拙于空间”。
尽管二维图像本身蕴含着丰富的透视、遮挡等三维线索,但现有模型普遍忽略了这些隐式的三维信息,从根本上限制了其在复杂场景下的空间推理能力。
核心方法:JanusVLN 的双重隐式记忆框架
为解决上述挑战,JanusVLN 创新性地提出了“双重隐式记忆”范式,其核心在于解耦的视觉感知、隐式的神经记忆表征和高效的增量式更新三大机制。
3.1 解耦的视觉感知:语义与空间的协同
JanusVLN 设计了一个双编码器架构,旨在让智能体同时具备“理解语义”和“感知空间”的能力:
2D 视觉语义编码器:采用先进的 Qwen2.5-VL 视觉编码器,负责从 RGB 图像中提取高级语义特征,回答“这是什么”的问题。
3D 空间几何编码器:引入预训练的 3D 视觉几何基础模型(VGGT),它能够在仅接收 RGB 视频的情况下,输出蕴含丰富三 D 结构信息的空间几何特征,回答“它在哪里,空间关系如何”的问题。这使得模型无需依赖昂贵的深度相机或激光雷达,即可获得强大的三维空间先验。
3.2 双重隐式神经记忆:以 KV 缓存为载体
我们创新地将记忆定义为神经网络深度处理后的高级抽象表征,而非原始输入。具体而言,我们将编码器注意力模块的键值对(Key-Value,KV)缓存作为隐式记忆的载体。JanusVLN 分别为语义和空间编码器维护独立的 KV 缓存,构成了双重隐式神经记忆。这种记忆形式紧凑、高效,是网络深度提炼的知识精华,从根本上解决了记忆膨胀问题。
3.3 高效的混合增量式更新
为了在固定大小的记忆中有效整合时序信息,我们设计了一种混合缓存更新策略:
滑动窗口:缓存最近 n 帧的 KV,确保模型对即时环境有敏锐的感知。
初始窗口:永久保留导航任务初始几帧的 KV。研究表明,这些初始帧如同“注意力接收器”(Attention Sinks),为整个任务提供了关键的全局锚点。
通过此机制,JanusVLN 在每一步仅需处理当前帧并与固定大小的隐式记忆交互,彻底避免了对历史帧的重复计算,实现了推理效率的巨大飞跃。
实验结果与分析
我们在主流的 VLN-CE 基准上进行了全面实验,验证了 JanusVLN 框架的有效性。
4.1 定量分析
如表 1 和表 2 所示,JanusVLN 在 R2R-CE 和 RxR-CE 两个数据集上均取得了 SOTA 性能:
超越多模态输入方法:与使用全景图、深度图等多种昂贵数据源的方法相比,JanusVLN 仅凭单目 RGB 输入,在成功率(SR)指标上实现了 10.5-35.5 个百分点的巨大提升。
超越现有 RGB-only 方法:与同样使用 RGB 输入、但采用显式记忆的 SOTA 方法(如 NaVILA,StreamVLN)相比,JanusVLN 在 SR 指标上分别提升了 10.8 和 3.6 个百分点,且使用了更少的辅助训练数据,充分证明了双隐式记忆范式的优越性。
强大的泛化能力:在更具挑战性的 RxR-CE 数据集上,JanusVLN 同样刷新了 SOTA 记录,展现了其强大的跨任务泛化能力。
4.2 定性分析
上图展示了 JanusVLN 在需要复杂空间推理的任务中的表现。无论是深度感知(定位最远的凳子)、三维相对定位(停在盆栽旁边而非前方),还是空间关联理解(橙色柜子旁边的凳子),JanusVLN 都能借助其空间几何记忆,准确理解指令并成功完成任务,证明了其卓越的空间推理能力。
结论与展望
本文提出了 JanusVLN,一个基于双重隐式神经记忆的开创性 VLN 框架。通过解耦语义理解与空间认知,并利用高效的增量式更新机制,JanusVLN 从根本上解决了传统 VLN 方法在记忆膨胀、计算冗余和空间感知缺失方面的核心瓶颈。
实验证明,该框架仅需 RGB 输入即可达到 SOTA 性能,其卓越的性能和泛化能力验证了双隐式记忆范式的有效性。
我们相信,JanusVLN 推动 VLN 研究从“二维语义主导”迈向了“三维空间与语义协同”的新阶段,为开发下一代具备高级空间认知能力的具身智能体指明了关键的研究方向。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·