动态列表

  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东

双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间

原创 让你更懂AI的 2025-11-17 11:02 北京

导航智能体终于能“边走边记”了

引言

视觉-语言导航(Vision-and-Language Navigation, VLN)作为具身智能的关键研究领域,旨在赋予智能体遵循自然语言指令在未知三维环境中导航的能力。

近年来,多模态大语言模型(MLLM)的崛起极大地推动了 VLN 的发展,其卓越的语义理解能力为任务完成提供了强大支持。

然而,当前主流方法普遍依赖于构建显式记忆,如文本拓扑地图或缓存历史图像。此类方法面临着空间信息损失、计算冗余和记忆膨胀等严峻挑战,且未能充分利用 RGB 图像中内含的丰富三维几何线索。

受人类认知科学中大脑左右半球分别处理语义与空间信息并形成高效隐式记忆的启发,我们提出了 JanusVLN,一个创新的视觉语言导航框架。该框架首次引入了双重隐式神经记忆,将视觉语义与空间几何进行解耦,并分别建模为两个独立的、紧凑且固定大小的神经表征。

JanusVLN 仅需单目 RGB 视频流,便能赋予模型强大的三维空间推理能力,并通过高效的增量式更新机制,显著降低了计算开销,为构建下一代空间感知具身智能体开辟了全新范式。

论文标题:

JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation

论文链接:

https://arxiv.org/abs/2509.22548

项目主页:

https://miv-xjtu.github.io/JanusVLN.github.io/

代码地址:

https://github.com/MIV-XJTU/JanusVLN

问题与挑战:当前 VLN 记忆机制的瓶颈

VLN 任务的本质要求智能体在连续的三维物理世界中进行长时序决策,这对模型的记忆能力提出了极高要求。然而,当前基于 MLLM 的方法在记忆机制上存在三大核心瓶颈:

1. 空间信息损失与表征不精确:基于文本认知地图的方法将环境节点抽象为文字描述,难以精确表达物体间的相对方位和几何关系,导致关键视觉与空间信息的丢失。

2. 计算与推理效率低下:缓存历史视频帧的方法在每一步决策时,均需重复处理全部历史观测数据,造成巨大的计算冗余和推理延迟,严重阻碍了模型的实时应用潜力。

3. 记忆膨胀问题:无论是文本还是图像形式的显式记忆,其大小都会随导航时长的增加而线性甚至指数级增长,使得模型难以从庞大、杂乱的记忆中高效提取关键信息。

更深层次的矛盾在于,VLN 是一个内蕴的三维交互任务,而现有模型的视觉编码器大多继承自为二维图文对设计的 CLIP 范式,这使其“精于语义,拙于空间”。

尽管二维图像本身蕴含着丰富的透视、遮挡等三维线索,但现有模型普遍忽略了这些隐式的三维信息,从根本上限制了其在复杂场景下的空间推理能力。

核心方法:JanusVLN 的双重隐式记忆框架

为解决上述挑战,JanusVLN 创新性地提出了“双重隐式记忆”范式,其核心在于解耦的视觉感知隐式的神经记忆表征高效的增量式更新三大机制。

3.1 解耦的视觉感知:语义与空间的协同

JanusVLN 设计了一个双编码器架构,旨在让智能体同时具备“理解语义”和“感知空间”的能力:

  • 2D 视觉语义编码器:采用先进的 Qwen2.5-VL 视觉编码器,负责从 RGB 图像中提取高级语义特征,回答“这是什么”的问题。

  • 3D 空间几何编码器:引入预训练的 3D 视觉几何基础模型(VGGT),它能够在仅接收 RGB 视频的情况下,输出蕴含丰富三 D 结构信息的空间几何特征,回答“它在哪里,空间关系如何”的问题。这使得模型无需依赖昂贵的深度相机或激光雷达,即可获得强大的三维空间先验。

3.2 双重隐式神经记忆:以 KV 缓存为载体

我们创新地将记忆定义为神经网络深度处理后的高级抽象表征,而非原始输入。具体而言,我们将编码器注意力模块的键值对(Key-Value,KV)缓存作为隐式记忆的载体。JanusVLN 分别为语义和空间编码器维护独立的 KV 缓存,构成了双重隐式神经记忆。这种记忆形式紧凑、高效,是网络深度提炼的知识精华,从根本上解决了记忆膨胀问题。

3.3 高效的混合增量式更新

为了在固定大小的记忆中有效整合时序信息,我们设计了一种混合缓存更新策略:

  • 滑动窗口:缓存最近 n 帧的 KV,确保模型对即时环境有敏锐的感知。

  • 初始窗口:永久保留导航任务初始几帧的 KV。研究表明,这些初始帧如同“注意力接收器”(Attention Sinks),为整个任务提供了关键的全局锚点。

通过此机制,JanusVLN 在每一步仅需处理当前帧并与固定大小的隐式记忆交互,彻底避免了对历史帧的重复计算,实现了推理效率的巨大飞跃。

实验结果与分析

我们在主流的 VLN-CE 基准上进行了全面实验,验证了 JanusVLN 框架的有效性。

4.1 定量分析

如表 1 和表 2 所示,JanusVLN 在 R2R-CE 和 RxR-CE 两个数据集上均取得了 SOTA 性能:

  • 超越多模态输入方法:与使用全景图、深度图等多种昂贵数据源的方法相比,JanusVLN 仅凭单目 RGB 输入,在成功率(SR)指标上实现了 10.5-35.5 个百分点的巨大提升。

  • 超越现有 RGB-only 方法:与同样使用 RGB 输入、但采用显式记忆的 SOTA 方法(如 NaVILA,StreamVLN)相比,JanusVLN 在 SR 指标上分别提升了 10.83.6 个百分点,且使用了更少的辅助训练数据,充分证明了双隐式记忆范式的优越性。

  • 强大的泛化能力:在更具挑战性的 RxR-CE 数据集上,JanusVLN 同样刷新了 SOTA 记录,展现了其强大的跨任务泛化能力。

4.2 定性分析

上图展示了 JanusVLN 在需要复杂空间推理的任务中的表现。无论是深度感知(定位最远的凳子)、三维相对定位(停在盆栽旁边而非前方),还是空间关联理解(橙色柜子旁边的凳子),JanusVLN 都能借助其空间几何记忆,准确理解指令并成功完成任务,证明了其卓越的空间推理能力。

结论与展望

本文提出了 JanusVLN,一个基于双重隐式神经记忆的开创性 VLN 框架。通过解耦语义理解与空间认知,并利用高效的增量式更新机制,JanusVLN 从根本上解决了传统 VLN 方法在记忆膨胀、计算冗余和空间感知缺失方面的核心瓶颈。

实验证明,该框架仅需 RGB 输入即可达到 SOTA 性能,其卓越的性能和泛化能力验证了双隐式记忆范式的有效性。

我们相信,JanusVLN 推动 VLN 研究从“二维语义主导”迈向了“三维空间与语义协同”的新阶段,为开发下一代具备高级空间认知能力的具身智能体指明了关键的研究方向。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们