动态列表

  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道

北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%

CV君 2025-10-09 14:47 江苏

赋予机器人“读心术”,长时记忆+空间推理,轻松应对遮挡干扰。

最近,具身智能领域又迎来一个非常有意思的工作。我们知道,让机器人像人一样在复杂的环境里持续跟住一个移动目标,其实非常困难,尤其是在目标被遮挡或者周围有长得很像的“路人甲”干扰时,机器人一不留神可能就“跟丢了”。

为了解决这个难题,来自北京大学、中国科学技术大学、北京航空航天大学等机构的研究者们,联合提出了一种名为 TrackVLA++ 的新模型。它给机器人装上了一个“会思考的大脑”和一个“好记性”,让跟踪任务变得既准又稳。

“跟不住”的痛点与 TrackVLA++ 的诞生

想象一下,让一个机器人做你的贴身小跟班,无论是在拥挤的商场还是在复杂的办公楼里,它都能紧紧跟着你。这就是“具身视觉跟踪”(Embodied Visual Tracking, EVT)任务。

以前的方法虽然在简单场景下还行,但一遇到目标长时间被挡住,或者旁边出现穿着相似衣服的人,模型就很容易“脸盲”,从而跟丢目标。根本原因在于,这些模型缺少两个关键能力:空间推理长时记忆。它们无法像人一样去思考“目标大概会往哪个方向走”,也记不住“我要找的人长什么样”。

TrackVLA++ 正是为了解决这一痛点而生。它是一个视觉-语言-动作(Vision-Language-Action, VLA)模型,通过引入两大创新模块,让机器人跟踪能力实现了质的飞跃。

两大“法宝”:会推理、有记忆

TrackVLA++ 的强大之处,主要来自两个精心设计的模块:Polar-CoT 推理机制和目标识别记忆 (TIM) 模块。

Polar-CoT:像人一样“思考”目标方位

这个名字听起来有点复杂,我们拆开看。CoT 指的是“思维链”(Chain-of-Thought),是一种让大模型模拟人类思考过程,一步步进行推理的技术。而 Polar 指的是“极坐标”。

所以,Polar-CoT 的作用就是,不再像以前的方法那样傻傻地去预测目标在图像中的矩形框位置,而是在机器人的自我中心视角下,通过“思考”来推断出目标的相对方位(角度和距离)。这个方位信息被编码成一个非常紧凑的“极坐标 token”,直接告诉模型“目标在你左前方3米处”。

这种方式非常高效,而且天然支持多摄像头输入,避免了不同视角下预测框可能产生的冲突和冗余,让推理变得又快又准。

目标识别记忆 (TIM):只记“对”的,不记“错”的

有了可靠的方位,如何保证在目标消失后还能认出它呢?这就需要 目标识别记忆 (Target Identification Memory, TIM) 模块了。

TIM 模块像一个聪明的守门员,它采用了一种“门控更新”策略。只有当 Polar-CoT 模块非常自信地(高置信度)预测到目标时,TIM 才会用最新的视觉特征来更新自己对目标的“记忆”。如果 Polar-CoT 表示“目标不见了”或“我不确定”,TIM 就会“关上大门”,保持之前的记忆不变,防止被环境中的干扰信息“污染”。

这种机制确保了即使目标被长时间遮挡,机器人心中对目标的样貌记忆依然是清晰、连贯的,一旦目标重新出现,就能立刻认出来。

实验效果:不仅刷新SOTA,还能落地真实世界

研究者们在多个公开基准测试(如 EVT-Bench 和 Gym-UnrealCV)上对 TrackVLA++ 进行了全面评估。

结果非常亮眼。在最具挑战性的 EVT-Bench DT(有干扰物)测试中,TrackVLA++ 的成功率比之前最好的方法提升了高达12个百分点。无论是在单视角还是多视角设置下,都稳居第一。

更重要的是,TrackVLA++ 展现了强大的零样本泛化能力。这意味着它在没有经过专门训练的全新场景中,依然能表现出色。

研究团队还在真实的四足机器人上部署了 TrackVLA++,在充满障碍、路径曲折和有干扰者的真实世界场景中进行了测试。

结果显示,TrackVLA++ 的鲁棒性远超前代模型,成功率提升了7%到17%不等,证明了其在实际应用中的巨大潜力。

消融实验也证明了 Polar-CoT 和 TIM 两个模块的有效性和互补性。去掉任何一个,模型性能都会明显下降。

总结

CV君认为,TrackVLA++ 通过引入类似人类的“推理”和“记忆”机制,为解决具身智能中的长时序、复杂交互问题提供了一个非常优雅且有效的范式。这种设计思路,也许能启发更多关于如何让AI“更懂思考”的研究。

你觉得这种带“思考”的跟踪方法,未来还能用在哪些好玩的机器人应用上?欢迎在评论区聊聊!

阅读原文

跳转微信打开

联系我们