动态列表

  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道

AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%

CV君 2025-11-16 07:04 江苏

机器人操作如何摆脱深度噪声“魔咒”?清华大学新框架给你答案。

大家好,今天想和大家聊一篇来自清华大学、Dexmal原力灵机等机构的最新研究成果。这篇文章提出了一个名为SpatialActor的机器人操作框架,旨在解决一个非常棘手的问题:真实世界中,深度传感器采集的数据往往充满噪声,这极大地影响了机器人的操作精度和稳定性。SpatialActor通过一种巧妙的“解耦”思想,显著提升了机器人在复杂环境下的鲁棒性。

背景:机器人操作的“空间困境”

让机器人像人一样在三维空间中与物体进行灵巧交互,是机器人学的核心目标之一。为了实现这一点,机器人需要精确地理解周围环境的空间几何信息。

目前主流的技术路线大致可以分为两类:

  1. 基于点云的方法:直接处理3D点云数据,能明确表达几何结构。但缺点是点云通常是稀疏的,处理过程中容易丢失精细的语义信息,而且高质量的3D标注成本高昂。

  2. 基于图像的方法:将RGB图像和深度图(RGB-D)作为输入,利用强大的2D预训练模型提取特征。这种方法能获得密集的语义信息,但问题在于它们常常将语义和几何信息“纠缠”在一起处理。当深度图存在噪声时(这在现实中几乎是不可避免的),这种纠缠的表示会同时污染语义和几何的理解,导致性能急剧下降。

如上图所示,现有方法在面对噪声时表现不佳。而本文提出的SpatialActor(也许可以理解为“空间大师”?),其核心动机就是将这两种信息解耦,让模型在利用深度信息的同时,又能抵抗其带来的噪声影响。

SpatialActor:解耦语义与几何

SpatialActor的整体框架如下图所示。它创新性地将视觉感知分解为三个部分:视觉语义高层几何低层空间线索,并对它们进行独立建模和融合。

模型接收来自多个摄像头的RGB-D图像、机器人自身状态(如关节角度)和语言指令作为输入,最终输出机械臂末端的动作指令(包括位置、姿态和夹爪状态)。

其核心在于两大创新模块:

语义引导的几何模块 (SGM)

为了得到鲁棒的几何表示,SGM模块(Semantic-guided Geometric Module)并没有直接完全信任充满噪声的原始深度图。它引入了一个“外部专家”——一个预训练好的大规模深度估算模型。这个专家可以仅根据RGB图像,生成一个相对粗糙但非常鲁棒的几何先验。

如上图(a)所示,SGM通过一个门控融合机制(gating mechanism),自适应地将原始深度图提供的精细但有噪声的几何特征,与深度专家提供的粗糙但鲁棒的几何先验结合起来。公式如下:

这里的 是一个学习到的门控权重,它决定了在不同区域应该更相信原始深度还是专家先验,从而在抑制噪声的同时保留必要的几何细节。

空间变换器 (SPT)

高层几何信息虽然鲁棒,但对于需要毫米级精度的操作任务来说还不够。因此,作者设计了空间变换器(Spatial Transformer, SPT)来利用低层的空间线索。

如上图(b)所示,SPT的核心思想是为视觉特征建立精确的2D-3D空间对应关系。它利用相机内外参和深度值,将每个2D像素点反投影到三维空间中,并使用旋转位置编码(Rotary Positional Encoding, RoPE)将这些三维坐标信息编码到特征中。

通过这种方式,每个视觉Token都获得了明确的“空间身份”。随后,SPT通过两个层级的注意力机制进行信息交互:

  • 视图级交互 (View-level Interaction):在单个视图内聚合上下文信息。

  • 场景级交互 (Scene-level Interaction):跨越所有视图和语言指令,融合全局信息,形成对整个场景的统一理解。

最终,经过SPT处理的特征被送入动作解码器,生成精确的机器人动作。

实验效果:鲁棒性与泛化性的双重胜利

SpatialActor在模拟和真实世界的50多个任务上进行了广泛评估,结果非常亮眼。

RLBench基准测试

在主流的RLBench操作任务基准上,SpatialActor的平均成功率达到了87.4%,超越了之前所有的SOTA方法,比RVT-2高出6.0%。

特别是在那些对空间精度要求极高的任务上,如插入销钉 (Insert Peg)形状分类 (Sort Shape)SpatialActor的性能提升尤为显著,分别比RVT-2高出53.3%38.3%

噪声鲁棒性测试

为了验证其对抗噪声的能力,研究者在深度数据中手动加入了不同程度的高斯噪声。

结果显示,在轻度、中度和重度噪声条件下,SpatialActor的平均成功率分别比RVT-2高出13.9%16.9%19.4%。这充分证明了其解耦设计的有效性。

上图展示了一个定性对比,在抓取胶棒的任务中,RVT-2由于噪声感知而抓取失败,而SpatialActor则能稳定地完成任务。

真实世界实验

研究团队还在真实的WidowX-250机械臂上部署了SpatialActor,涵盖了8个任务和15种变化。

实验结果表明,SpatialActor在真实世界中的平均成功率达到了63%,相比RVT-2的43%有了近20%的巨大提升,展现了强大的现实世界适应能力。

总结

总的来说,SpatialActor通过解耦语义与几何,并精细化地利用不同层次的空间信息,为解决机器人操作中的噪声敏感问题提供了一个非常有效的新范式。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

联系我们