动态列表

  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售
  • 当强化学习学会“跳步骤”:Sergey Levine团队重写值函数的递归逻辑
  • 不用教它撒谎,LLM也会“心口不一”:上海AI Lab揭露高风险下的模型欺骗行为
  • 北京内推 | 快手模型与应用部增长模型团队招聘大模型/推荐方向算法实习生
  • 当 ChatGPT 要开始「搞黄色」,我都不敢想......
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 语言模型之后,智源 EMU3.5 找到了 AI 的「第三种 Scaling 范式」
  • 李想谈万台MEGA召回:生命只有一次;传明年AirPods配摄像头+AI;神舟二十一飞船发射成功,对接速度创纪录|极客早知道

记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题

原创 让你更懂AI的 2025-11-05 20:34 北京

机器人不再“金鱼记忆”!

让机器人拥有记忆,是实现长时程任务的关键突破。然而,现有视觉-语言-动作(VLA)模型普遍存在金鱼记忆的局限——仅依赖当前瞬间的感知,缺乏对历史状态的建模,导致在需要判断按钮是否已按下这类任务中表现不佳。

图1(a):在按钮按压任务中,按下前后的状态几乎完全相同,这凸显了对时序建模的需求

受人类大脑工作记忆海马体双记忆机制的启发,Dexmal 原力灵机作者团队提出 MemoryVLA,创新性地引入感知-认知记忆库Perceptual-Cognitive Memory Bank, PCMB),实现同时存储高层的语义抽象(认知 Token)与底层的视觉细节(感知 Token);在决策时智能地从记忆库中回忆相关历史信息,实现时序感知的决策。

图 1(b):人类大脑的认知-记忆-动作流程示意,(c)MemoryVLA 整体架构示意

作者将解析这一双流记忆框架如何显著提升模型在长时程任务中的表现。实验证明,MemoryVLA 在仿真与真实场景中均取得突破,性能全面领先 CogACTPi0 等主流基线,为实现机器人持续、连贯的智能行为开辟了新路径。

另外值得一提的是,MemoryVLA 现已毫无保留地集成至一站式 VLA 开源工具箱 Dexbotic,借助更强大的预训练模型的加持,其性能表现更加显著,欢迎大家试用探索。

论文名称:

MemoryVLA: Perceptual-Cognitive Memory In Vision-Language-Action Models For Robotic Manipulation

论文链接:

https://arxiv.org/abs/2508.19236

项目主页:

https://shihao1895.github.io/MemoryVLA

MemoryVLA GitHub:

https://github.com/shihao1895/MemoryVLA

Dexbotic GitHub:

https://github.com/Dexmal/dexbotic/tree/main/dexbotic/model/memvla

方法与架构

作者把 VLA 模型中的机器人操作形式化为一个序列决策过程,其中视觉观测与语言指令被映射至用于现实交互的控制动作。给定当前 RGB 图像 I 和语言指令L,参数化策略π 会输出未来动作序列:

整体架构

图2. MemoryVLA 整体框架

MemoryVLA 是一个面向机器人操作任务的端到端框架。当前的 RGB 观测与语言指令由视觉语言模型(VLM)编码为感知 Token 与认知 Token,一起形成工作记忆。

MemoryVLA 这一设计类似于与短期记忆相关的视觉皮层与前额叶皮层的神经活动;同时引入受海马体启发的感知-认知记忆库 PCMB,以维持长期的高层语义与细粒度感知细节。

工作记忆的嵌入向量会查询 PCMB 以检索与决策相关的历史信息,并通过门控机制将历史信息与当前表征自适应融合;当记忆容量达到上限时,MemoryVLA 系统会进一步合并时间相邻且语义相似的条目以巩固记忆。

最终的记忆增强表示会被输入到记忆条件化(memory-conditioned)扩散动作专家中,生成 N 个未来的 7 自由度(7-DoF)动作序列。

视觉-语言认知模块

该模块基于 7B 参数的 Prismatic VLM 构建,其在 Open-X Embodiment 大规模跨本体数据集上进一步预训练。

视觉编码方面,对第三人称 RGB 图像并行采用 DINOv2 SigLIP backbones,并将其特征拼接为原始视觉 Token,再经感知压缩模块压缩为紧凑的感知 Token。

并行地,原始视觉 Token 经线性层投影至语言嵌入空间,与 Token 化指令拼接后输入 LLaMA-7BEnd-of-Sentence (EOS)位置输出作为认知 Token承载高层认知语义;感知 Token 与认知 Token 结合,最后形成下游模块的短期工作记忆。

感知-认知记忆库

视觉-语言认知模块生成工作记忆。然而,该工作记忆仅反映当前时间步,缺乏时序依赖性。为解决这一问题,受人类记忆系统中海马体的启发,作者引入感知-认知记忆库 PCMB

整个记忆库包含 3 个组件:

(a) 记忆检索:当前感知与认知 Token 通过带时间步位置编码的交叉注意力查询 PCMB,以获取相关历史特征;

(b) 记忆门控融合:当前 Token 与检索到的历史 Token 经门控机制自适应融合;

(c) 记忆巩固:融合后的 Token 被更新至 PCMB;当 PCMB 达到容量上限时,计算相邻条目间的相似度,合并最相似的一对以保持记忆的紧凑性。

图3:感知-认知记忆模块细节。(a) 记忆检索;(b) 记忆门控融合;(c) 记忆巩固

记忆条件化动作专家

通过融合历史感知与认知信息的记忆增强工作记忆,动作专家可以预测未来 16 步的动作序列,从而实现预判多步轨迹、降低累积误差,并为长时程执行提供前瞻性。

由于现实世界机器人动作处于连续多模态的控制空间,作者采用基于扩散机制的 Transformer (DiT),通过去噪扩散隐式模型(DDIM)实现使用 10 个去噪步长以达成高效而精确的轨迹生成。

最终,模型训练采用预测动作与目标动作之间的均方误差(MSE)损失,去噪向量经多层感知机(MLP)处理后,生成连续的 7 自由度(7-DoF)的机器人动作。

实验结果

实验设置

图 4:MemoryVLA 实验设置

作者在多个主流仿真与真实场景中评估 MemoryVLA ——覆盖 3 种机器人、10 个任务Suites、150 余项任务及 500 多种变体。

SimplerEnv-Bridge 仿真实验结果

MemoryVLA SimplerEnv-Bridge 平均成功率达 71.9%,较 CogACT-Large 基线提升 14.6%,且优于包括 Pi0 在内的最新 VLA 模型。具体任务中,Spoon on TowelCarrot on Plate 成功率均为 75.0%Stack Cube 37.5%Eggplant in Basket 100%

MemoryVLA 基于一站式 VLA 开源工具箱 Dexbotic SimplerEnv-Bridge 继续提升,平均成功率达到 84.4%

SimplerEnv-Fractal 仿真实验结果

MemoryVLA SimplerEnv-Fractal 整体成功率达 72.7%,较 CogACT 提升4.6%,且优于 Pi0。

分别来看,VM 平均成功率 77.7%(较 CogACT 提升2.9%),VA 平均 67.7%(较 CogACT 提升6.4%)。

具体任务中,Open/Close Drawer (VM) 成功率可达 84.7%,较 CogACT 提升12.9%;Open/Close Drawer (VA) 提升 24.9%,Put in Drawer (VA) 提升 11.7%。

LIBERO 仿真实验结果

MemoryVLA LIBERO 整体成功率达 96.5%,较 CogACT 提升 3.3%,且优于 Pi0;Suites 成功率分别为:空间 98.4%、物体 98.4%、目标 96.4%、长时程-10 任务 93.4%、长时程-90 任务 95.6%。

真机实验结果

MemoryVLA 在 6 项通用真机任务中平均成功率达 85%,在 6 项长时程任务中得分达 83%,较 CogACT 分别提升 9% 和 26%,且在 2 个Suites上均优于 Pi0。

每项通用任务上均持平或超过最强基线,其中 Egg in Pan(+13%)、Egg in Oven(+20%)提升显著;长时程任务增益更突出:Seq. Push Buttons(+43%)、Change Food(+38%)、Guess Where(+32%)、Clean Table & Count(+17%)。

这些结果验证了 MemoryVLA 在真实世界通用操作中的强能力,也凸显了时间记忆对长程控制的关键价值。

真机鲁棒性实验结果

在真机环境测试中,MemoryVLA 展现出强大的鲁棒性与泛化能力。无论是背景变化、干扰物、光照差异、遮挡,还是全新物体与容器等分布外(OOD)场景,模型均能保持高成功率。

以 Pick Place Order 和 Clean Restaurant Table 等任务为例,MemoryVLA 在未见环境下仅出现小幅度性能波动,整体表现依然稳定。

结论

受认知科学的启发,作者提出一个贴合机器人操作需求的认知-记忆-动作(Cognition-Memory-Action)框架MemoryVLA

这个框架通过模仿大脑海马体的功能,建立一个感知-认知记忆库 PCMB,再结合工作记忆,专门用来捕捉任务中前后步骤的时序依赖。

这样一来,机器人就能利用视觉语言模型(VLM)的常识先验来辅助高级决策,同时依靠一个独特的记忆扩散动作专家来生成时序感知的精准动作。

作者在 SimplerEnvLIBERO 等多个仿真平台以及真实世界中评估 MemoryVLA,涵盖 3 种机器人和 150 余项任务(含 500 多种变体)。

实验结果表明,MemoryVLA 表现始终优于 CogACT Pi0,达到 SOTA 水平,尤其在时序依赖的长程任务中,优势更加明显。即使在各种未曾训练过的、意外的情况下,它也展现出强大的鲁棒性和泛化能力。

最后,关于 MemoryVLA 下一步的进化方向,作者团队指出两点:

(a) 给记忆加上反思功能:将长期记忆对齐至大语言模型(LLM)输入空间,以实现嵌入空间的思维链推理;

(b) 打造终身记忆系统:将频繁复用的经验提炼为永久表征,从而支持跨场景、跨任务与跨具身本体的规模化泛化。

图片

参考资料

图片

[1] Hao Shi, Bin Xie, Yingfei Liu, Lin Sun, Fengrong Liu, Tiancai Wang, Erjin Zhou, Haoqiang Fan, Xiangyu Zhang, and Gao Huang. Memoryvla: Perceptual-cognitive memory in vision-language- action models for robotic manipulation. arXiv preprint arXiv:2508.19236, 2025.

[2] Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair,
Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, et al. Openvla: An open-source
vision-language-action model. arXiv preprint arXiv:2406.09246, 2024.

[3] Qixiu Li, Yaobo Liang, Zeyu Wang, Lin Luo, Xi Chen, Mozheng Liao, Fangyun Wei, Yu Deng,
Sicheng Xu, Yizhong Zhang, et al. Cogact: A foundational vision-language-action model for syn-
ergizing cognition and action in robotic manipulation. arXiv preprint arXiv:2411.19650, 2024a.

[4] Kevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Niccolo
Fusai, Lachy Groom, Karol Hausman, Brian Ichter, et al. pi-0: A vision-language-action flow
model for general robot control. arXiv preprint arXiv:2410.24164, 2024.

[5] Alan D Baddeley and Graham James Hitch. Working memory (vol. 8). New York: GA Bower (ed),
Recent advances in learning and motivation, 1974.

[6] Endel Tulving et al. Episodic and semantic memory. Organization of memory, 1(381-403):1, 1972.

[7] Xuanlin Li, Kyle Hsu, Jiayuan Gu, Karl Pertsch, Oier Mees, Homer Rich Walke, Chuyuan Fu,
Ishikaa Lunawat, Isabel Sieh, Sean Kirmani, et al. Evaluating real-world robot manipulation
policies in simulation. arXiv preprint arXiv:2405.05941, 2024b.

[8] Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu, and Peter Stone. Libero:
Benchmarking knowledge transfer for lifelong robot learning. Advances in Neural Information
Processing Systems, 36:44776–44791, 2023a.

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们