ToolsAi

原创让你更懂AI的 2025-11-05 20:34 北京

机器人不再“金鱼记忆”！

让机器人拥有“记忆”，是实现长时程任务的关键突破。然而，现有视觉-语言-动作（VLA）模型普遍存在“金鱼记忆”的局限——仅依赖当前瞬间的感知，缺乏对历史状态的建模，导致在需要判断“按钮是否已按下”这类任务中表现不佳。

▲ 图1（a）：在按钮按压任务中，按下前后的状态几乎完全相同，这凸显了对时序建模的需求

受人类大脑“工作记忆”与“海马体”双记忆机制的启发，Dexmal 原力灵机作者团队提出 MemoryVLA，创新性地引入“感知-认知记忆库”（Perceptual-Cognitive Memory Bank, PCMB），实现同时存储高层的语义抽象（认知 Token）与底层的视觉细节（感知 Token）；在决策时智能地从记忆库中“回忆”相关历史信息，实现时序感知的决策。

▲ 图 1（b）：人类大脑的认知-记忆-动作流程示意，（c）MemoryVLA 整体架构示意

作者将解析这一“双流记忆”框架如何显著提升模型在长时程任务中的表现。实验证明，MemoryVLA 在仿真与真实场景中均取得突破，性能全面领先 CogACT、Pi0 等主流基线，为实现机器人持续、连贯的智能行为开辟了新路径。

另外值得一提的是，MemoryVLA 现已毫无保留地集成至一站式 VLA 开源工具箱 Dexbotic，借助更强大的预训练模型的加持，其性能表现更加显著，欢迎大家试用探索。

论文名称：

MemoryVLA: Perceptual-Cognitive Memory In Vision-Language-Action Models For Robotic Manipulation

论文链接：

https://arxiv.org/abs/2508.19236

项目主页：

https://shihao1895.github.io/MemoryVLA

MemoryVLA GitHub:

https://github.com/shihao1895/MemoryVLA

Dexbotic GitHub:

https://github.com/Dexmal/dexbotic/tree/main/dexbotic/model/memvla

方法与架构

作者把 VLA 模型中的机器人操作形式化为一个序列决策过程，其中视觉观测与语言指令被映射至用于现实交互的控制动作。给定当前 RGB 图像 I 和语言指令L，参数化策略π 会输出未来动作序列：

整体架构

▲ 图2. MemoryVLA 整体框架

MemoryVLA 是一个面向机器人操作任务的端到端框架。当前的 RGB 观测与语言指令由视觉语言模型（VLM）编码为感知 Token 与认知 Token，一起形成工作记忆。

MemoryVLA 这一设计类似于与短期记忆相关的视觉皮层与前额叶皮层的神经活动；同时引入受海马体启发的感知-认知记忆库 PCMB，以维持长期的高层语义与细粒度感知细节。

工作记忆的嵌入向量会查询 PCMB 以检索与决策相关的历史信息，并通过门控机制将历史信息与当前表征自适应融合；当记忆容量达到上限时，MemoryVLA 系统会进一步合并时间相邻且语义相似的条目以巩固记忆。

最终的记忆增强表示会被输入到记忆条件化（memory-conditioned）扩散动作专家中，生成 N 个未来的 7 自由度（7-DoF）动作序列。

视觉-语言认知模块

该模块基于 7B 参数的 Prismatic VLM 构建，其在 Open-X Embodiment 大规模跨本体数据集上进一步预训练。

视觉编码方面，对第三人称 RGB 图像并行采用 DINOv2 与 SigLIP backbones，并将其特征拼接为原始视觉 Token，再经感知压缩模块压缩为紧凑的感知 Token。

并行地，原始视觉 Token 经线性层投影至语言嵌入空间，与 Token 化指令拼接后输入 LLaMA-7B；End-of-Sentence (EOS)位置输出作为认知 Token，承载高层认知语义；感知 Token 与认知 Token 结合，最后形成下游模块的短期工作记忆。

感知-认知记忆库

视觉-语言认知模块生成工作记忆。然而，该工作记忆仅反映当前时间步，缺乏时序依赖性。为解决这一问题，受人类记忆系统中海马体的启发，作者引入感知-认知记忆库 PCMB：

整个记忆库包含 3 个组件：

(a) 记忆检索：当前感知与认知 Token 通过带时间步位置编码的交叉注意力查询 PCMB，以获取相关历史特征；

(b) 记忆门控融合：当前 Token 与检索到的历史 Token 经门控机制自适应融合；

▲ 图3：感知-认知记忆模块细节。(a) 记忆检索；(b) 记忆门控融合；(c) 记忆巩固

记忆条件化动作专家

通过融合历史感知与认知信息的记忆增强工作记忆，动作专家可以预测未来 16 步的动作序列，从而实现预判多步轨迹、降低累积误差，并为长时程执行提供前瞻性。

由于现实世界机器人动作处于连续多模态的控制空间，作者采用基于扩散机制的 Transformer (DiT)，通过去噪扩散隐式模型（DDIM）实现使用 10 个去噪步长以达成高效而精确的轨迹生成。

最终，模型训练采用预测动作与目标动作之间的均方误差（MSE）损失，去噪向量经多层感知机（MLP）处理后，生成连续的 7 自由度（7-DoF）的机器人动作。

实验结果

实验设置

▲ 图 4：MemoryVLA 实验设置

作者在多个主流仿真与真实场景中评估 MemoryVLA ——覆盖 3 种机器人、10 个任务Suites、150 余项任务及 500 多种变体。

SimplerEnv-Bridge 仿真实验结果

MemoryVLA SimplerEnv-Bridge 平均成功率达 71.9%，较 CogACT-Large 基线提升 14.6%，且优于包括 Pi0 在内的最新 VLA 模型。具体任务中，Spoon on Towel、Carrot on Plate 成功率均为 75.0%，Stack Cube 为 37.5%，Eggplant in Basket 达 100%。

MemoryVLA 基于一站式 VLA 开源工具箱 Dexbotic 在 SimplerEnv-Bridge 继续提升，平均成功率达到 84.4%。

SimplerEnv-Fractal 仿真实验结果

MemoryVLA SimplerEnv-Fractal 整体成功率达 72.7%，较 CogACT 提升4.6%，且优于 Pi0。

分别来看，VM 平均成功率 77.7%（较 CogACT 提升2.9%），VA 平均 67.7%（较 CogACT 提升6.4%）。

具体任务中，Open/Close Drawer (VM) 成功率可达 84.7%，较 CogACT 提升12.9%；Open/Close Drawer (VA) 提升 24.9%，Put in Drawer (VA) 提升 11.7%。

LIBERO 仿真实验结果

MemoryVLA LIBERO 整体成功率达 96.5%，较 CogACT 提升 3.3%，且优于 Pi0；Suites 成功率分别为：空间 98.4%、物体 98.4%、目标 96.4%、长时程-10 任务 93.4%、长时程-90 任务 95.6%。

真机实验结果

MemoryVLA 在 6 项通用真机任务中平均成功率达 85%，在 6 项长时程任务中得分达 83%，较 CogACT 分别提升 9% 和 26%，且在 2 个Suites上均优于 Pi0。

每项通用任务上均持平或超过最强基线，其中 Egg in Pan（+13%）、Egg in Oven（+20%）提升显著；长时程任务增益更突出：Seq. Push Buttons（+43%）、Change Food（+38%）、Guess Where（+32%）、Clean Table & Count（+17%）。

这些结果验证了 MemoryVLA 在真实世界通用操作中的强能力，也凸显了时间记忆对长程控制的关键价值。

真机鲁棒性实验结果

在真机环境测试中，MemoryVLA 展现出强大的鲁棒性与泛化能力。无论是背景变化、干扰物、光照差异、遮挡，还是全新物体与容器等分布外（OOD）场景，模型均能保持高成功率。

以 Pick Place Order 和 Clean Restaurant Table 等任务为例，MemoryVLA 在未见环境下仅出现小幅度性能波动，整体表现依然稳定。

结论

受认知科学的启发，作者提出一个贴合机器人操作需求的认知-记忆-动作（Cognition-Memory-Action）框架MemoryVLA。

这个框架通过模仿大脑海马体的功能，建立一个感知-认知记忆库 PCMB，再结合工作记忆，专门用来捕捉任务中前后步骤的时序依赖。

这样一来，机器人就能利用视觉语言模型（VLM）的常识先验来辅助高级决策，同时依靠一个独特的“记忆扩散动作专家”来生成时序感知的精准动作。

作者在 SimplerEnv、LIBERO 等多个仿真平台以及真实世界中评估 MemoryVLA，涵盖 3 种机器人和 150 余项任务（含 500 多种变体）。

实验结果表明，MemoryVLA 表现始终优于 CogACT 和 Pi0，达到 SOTA 水平，尤其在时序依赖的长程任务中，优势更加明显。即使在各种未曾训练过的、意外的情况下，它也展现出强大的鲁棒性和泛化能力。

最后，关于 MemoryVLA 下一步的进化方向，作者团队指出两点：

(a) 给记忆加上“反思”功能：将长期记忆对齐至大语言模型（LLM）输入空间，以实现嵌入空间的思维链推理；

(b) 打造“终身记忆”系统：将频繁复用的经验提炼为永久表征，从而支持跨场景、跨任务与跨具身本体的规模化泛化。

参考资料

[1] Hao Shi, Bin Xie, Yingfei Liu, Lin Sun, Fengrong Liu, Tiancai Wang, Erjin Zhou, Haoqiang Fan, Xiangyu Zhang, and Gao Huang. Memoryvla: Perceptual-cognitive memory in vision-language- action models for robotic manipulation. arXiv preprint arXiv:2508.19236, 2025.

[2] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair,
Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source
vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.

[3] Qixiu Li, Yaobo Liang, Zeyu Wang, Lin Luo, Xi Chen, Mozheng Liao, Fangyun Wei, Yu Deng,
Sicheng Xu, Yizhong Zhang, et al. Cogact: A foundational vision-language-action model for syn-
ergizing cognition and action in robotic manipulation. arXiv preprint arXiv:2411.19650, 2024a.

[4] Kevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo
Fusai, Lachy Groom, Karol Hausman, Brian Ichter, et al. pi-0: A vision-language-action flow
model for general robot control. arXiv preprint arXiv:2410.24164, 2024.

[5] Alan D Baddeley and Graham James Hitch. Working memory (vol. 8). New York: GA Bower (ed),
Recent advances in learning and motivation, 1974.

[6] Endel Tulving et al. Episodic and semantic memory. Organization of memory, 1(381-403):1, 1972.

[7] Xuanlin Li, Kyle Hsu, Jiayuan Gu, Karl Pertsch, Oier Mees, Homer Rich Walke, Chuyuan Fu,
Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, et al. Evaluating real-world robot manipulation
policies in simulation. arXiv preprint arXiv:2405.05941, 2024b.

[8] Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, and Peter Stone. Libero:
Benchmarking knowledge transfer for lifelong robot learning. Advances in Neural Information
Processing Systems, 36:44776–44791, 2023a.

更多阅读