动态列表

  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道
  • OpenAI「GPT门」事件引爆!Plus、Pro账户统统降配,偷换模型全网实锤
  • 突发,普林斯顿CS博士后猝然离世!清华本科毕业,刚完成论文答辩
  • 国内首次!8.9毫秒推理速度破纪录,1元打穿百万token
  • 惊现高管离职潮!马斯克亲信操盘xAI,千亿美元能填AGI野望?
  • 黄仁勋2小时反驳「AI泡沫帝国」论!英伟达将成全球首家十万亿市值公司
  • 云与AI,如何托举 Z 世代的创新野心
  • NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!
  • 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文
  • 北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
  • NeurIPS 2025 | 北大等提出C²Prompt:解耦类内与类间知识,破解联邦持续学习“双重遗忘”难题
  • InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”
  • 24.98万的理想i6,在特斯拉、小米、蔚来「后院」放了一把火
  • 小米 17 开售 5 分钟,破国产机销售纪录;Meta 研发机器人项目;国内发布「脑机接口标准」
  • Stability AI前CEO惊人预测:人类智力价值归零,只剩1000天!
  • 刚刚,奥特曼预言:人类「只剩」最后5年!
  • 免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」
  • 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」
  • 苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
  • 自动驾驶进入大模型时代,主机厂寻找「联合创始人」
  • 复旦等揭秘机器人“大脑”安全漏洞:一张图就能让它“宕机”,攻击成功率76.2%
  • DASFAA 2025 | 湖大等提出SCRA-VQA:给LLM一份“精装修”的图像描述,无需训练提升VQA性能
  • 苹果官方旗舰店也放假,商品不发货;腾讯推「老年打车」服务;车主酒驾,智能驾驶「报警」|极客早知道
  • 刚刚,ChatGPT Pulse上线!私人秘书不再是富人特权
  • 颠覆算力格局!全球首个星座级太空AI算力服务,在中国诞生
  • OpenAI 3万亿美元测试,AI首战44个行业人类专家!
  • JHU教授揭秘学术潜规则:普通博士如何打破鄙视链翻盘?
  • Hinton预言错了!年薪狂飙52万美元,AI没有「干掉」放射科医生
  • 168 元一年的「小红卡」,是小红书打破本地生活红海的钥匙
  • 当 5 亿玩家涌入 AI 的 3D 新世界
  • 普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
  • 128k死穴被击穿!Amazon爆改长上下文:段内压缩快4×,推理不掉点还更准
  • 博士申请 | 香港中文大学(深圳)冀晓强老师课题组招收人工智能全奖博士/硕士
  • AI 到底会不会做生意?1688 的答案让人惊喜
  • 找人不求人?Lessie 让「人脉玄学」变成算法游戏|AI 上新
  • 斯坦福推出VisualMimic:让机器人“眼观六路”,零样本完成复杂任务
  • 浙大发布RS3DBench:让遥感AI看懂3D世界,首个像素级对齐的大规模基准来了!
  • 小米 17 系列发布,4499 起;追觅「库里南」图片曝光;YU7 Max 成「百万最速」车
  • 刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
  • AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
  • Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步
  • 信息熵之后,清华提出状态熵!量化分析「系统智能性」的全新视角
  • 突发!Meta刚从OpenAI挖走了清华校友宋飏
  • 北京内推 | 中科院软件所数据科学研究中心招聘大语言模型算法实习生
  • 78条打穿1万条!上交大新范式告诉你:智能体训练靠“质”,不是靠“量”
  • KV缓存不再爆!清华姚期智团队重写注意力维度,长上下文更省更强 | NeurIPS 2025 Spotlight
  • 三款骁龙芯片曝光,高通谷歌联手打造「安卓 PC」时代
  • Instagram 月活破 30 亿,靠“短视频”和“私信”;2027款iPhone曝光;女子用ChatGPT选号中百万大奖,全部捐出
  • 一年4次迭代,狂堆GPU成真!微软AI冷液灌芯,散热暴涨3倍
  • 刚刚,阿里CEO吴泳铭发布「ASI宣言」:超级智能才是终局!
  • 前Meta工程师爆料:17人团队15个H-1B!一夜之间80%对手没了?
  • 秘塔AI放大招!「边想边搜边做」,内置20+智能体,想法一键实现
  • 震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失
  • 恶劣天气下的图像修复:南理工等提出LCDiff,让AI在雨雪雾天也能看得清
  • OCRBench v2 25年9月最新榜单发布!揭示多模态大模型文档智能真实水平
  • RL不再撒胡椒面!港科大 × 清华新作:只盯“规划token”,大模型推理力狂飙
  • NeurIPS 2025 | 甩掉文本CoT!FSDrive开启时空思维链,自动驾驶迈入视觉推理时代
  • 博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生
  • 3 天卖完今年所有产能,蔚来全新 ES8 如何实现逆风翻盘?
  • 超越 AGI,阿里剑指「超级智能」
  • Point-SSM:一种用于点云分析的极简状态空间模型,在医学点云任务上表现SOTA
  • 字节跳动OmniInsert炸场:无需掩码,任意物体“贴”进视频,效果碾压闭源SOTA!
  • ContextFlow:无需训练的视频编辑新范式,实现电影级魔改!
  • 忘了法拉利,一辆中国车正在改写游戏规则
  • 40亿投进去,换回了什么?全新问界M7的「值得」哲学
  • 华为问界新 M7,1 小时大定 3 万;李想:iPhone 17 顶配太丑,不买;防台风,腾讯「捆绑」QQ 企鹅塑像
  • 一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相
  • 告别胶水代码,5倍飚速!无问芯穹首次揭秘,Infra智能体蜂群登场
  • Depth Anything再出新作!浙大 & 港大出品:零样本,优化任意深度图
  • H-1B「天价签证」引爆恐慌!印裔精英返乡梦碎,2800亿市场剧震
  • 突发:甲骨文CEO下台!刚和OpenAI签下3000亿美元大单,或因路线斗争
  • 年轻一代创作者,学会与 AI 共舞
  • MiniCPM-V 4.5技术报告正式出炉!首个高刷视频理解多模态模型全解析
  • KDD 2025 | 从个股偏离到市场共振:UMI挖出股市非理性因子,显著提升预测精度
  • 一套框架搞定图像定制!IC-Custom统一「位置相关/无关」,万物迁移真落地
  • 北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
  • Yann LeCun团队新作LLM-JEPA:结合联合嵌入预测架构,显著提升大模型微调性能与效率,在代码生成任务上表现卓越
  • TPAMI | 数据增强还在“盲操”?南大提出IPF-RDA,让模型训练告别信息丢失
  • SilentStriker:无声击溃大模型
  • 小米 17 系列手机官宣 9 月 25 日发布;iPhone 17 标准款需求超预期,苹果已增产;罗永浩再回应债务问题:个人债务五年前就还完了,后面是主动还的公司债务|极客早知道

零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人



  新智元报道  

编辑:好困 桃子
【新智元导读】为破解机器人产业「一机一调」的开发困境,智源研究院开源了通用「小脑基座」RoboBrain-X0。它创新地学习任务「做什么」而非「怎么动」,让一个预训练模型无需微调,即可驱动多种不同构造的真实机器人,真正实现了零样本跨本体泛化。


今天举行的2025机器人学习大会(Conference on Robot Learning,CoRL)上,智源研究院干了一件大事:他们把自家研发的具身智能「小脑基座」——RoboBrain-X0,直接开源了!

智源宣称,这是一款仅通过预训练,即可实现多类真实机器人间的基础操作零样本迁移,结合小样本微调就能进一步释放其对更复杂任务跨本体泛化潜力的「通用小脑基座」。

在谷歌、英伟达、特斯拉等巨头和Figure AI、Physical Intelligence等明星创业公司已经把牌桌挤满的今天,智源这一手「开源王炸」,摆明了就是要告诉所有人——牌局,要重新洗了。

RoboBrain-X0 GitHub地址:

https://github.com/FlagOpen/RoboBrain-X0


多芯片版本地址FlagRelease:

https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS


核心训练数据集:

https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset



机器人行业的「换脑难题」


如今的机器人产业,时常呈现出一种奇特的反差。

  • 一方面,在精心编排的演示中,它们是无所不能的超级明星:可以完成后空翻、走梅花桩,表演复杂的舞蹈,甚至每一个动作都精准卡点。

  • 另一方面,在真实、开放的环境里,哪怕是看似简单的任务,也可能出现令人意外的低级失误。

为什么会出现这种情况?

这背后正是机器人行业一个公开的秘密:驱动「身体」的「操作系统」互不相通。

不同团队拿到同一家厂商的同一款硬件,由于采用的是各自开发的算法或软件系统,最终呈现出的能力可能天差地别。

其结果是,每个团队都在重复造轮子,为每一款机器人投入大量人力去重复收集数据、训练模型、进行繁琐的适配。这种「一机一调」的模式,极大地限制了机器人智能的规模化部署,成为了制约整个产业升级的枷锁。


一个基座,N种身体,即插即用


智源此次开源的RoboBrain-X0,「仅靠预训练即可实现零样本跨本体泛化」,正是对上述行业难题的正面回应。

这意味着,一个未经针对性微调的预训练模型,可以直接部署在不同厂商、不同结构的真实机器人上,并表现出稳定、可靠的性能。

这背后,并非简单的模型参数堆砌,而是一系列深刻的技术洞察与架构创新。

RoboBrain-X0源自RoboBrain的多模态基座能力,在RoboBrain 2.0数据基础上,进一步融合了真实机器人动作数据。

通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。

结合智源公开的前沿研究,我们可以窥见其三大技术支柱:

1. 核心思想:学习「做什么」,而非「怎么动」

传统机器人模型常常死记硬背特定机器人的控制信号(如关节角度、电机扭矩),导致「换壳即失灵」。

RoboBrain-X0模型学习的是任务背后的「物理本质」。当模型接收到「把桌上的苹果放进左边的篮子」这类指令时,它首先通过强大的视觉推理能力,将任务分解为一套与机器人「身体」无关的通用语义动作序列(Universal Semantic Actions)。

这个过程类似于人类大脑的思考方式——我们想的是「拿起杯子」,而不是「驱动我的肱二头肌收缩X度,同时手指弯曲Y度,施加Z牛的力」。

RoboBrain-X0通过一个「本体映射机制」(Embodiment Mapping Mechanism),将这些抽象的、通用的动作步骤,实时翻译成当前所控制的具体机器人的可执行指令,比如「先靠近苹果→抓起来→移到篮子上方→放下」,从而奠定了其跨本体泛化的理论基础。

2. 动作语义的统一与抽象化表达

RoboBrain-X0并不直接输出底层关节或电机级别的控制信号,而是在抽象层面引入了统一动作表征体系。

具体来说,模型通过大规模异构数据的训练,将各种机器人的复杂动作,都拆解成一套标准的「动作词汇表」(Unified Action Vocabulary, UAV),并通过动作tokenizer机制进行量化和编码,用类似ChatGPT处理文字的方式把动作变成一串串的token。

将末端执行器的空间运动(包括位置、姿态和夹爪状态等)有效压缩为简短的token序列,在保证表达能力的同时,实现跨本体的一致性、迁移性和高效推理,从而让模型支持混合本体数据训练

换句话说,不同机器人终于能「听懂」同样的指令了,而且因为动作被压缩成了简短的代码,计算效率大大提升,长时间的复杂任务也不会「卡壳」。

3. 分层推理框架:任务、动作与控制的解耦

RoboBrain-X0的推理与控制采用了一种分层架构。该架构将复杂的控制流分解为三层:

  • 顶层负责解析高层任务意图,并生成结构化的子任务链;

  • 中间将这些子任务进一步映射为标准化的 token 序列,完成从任务语义到通用动作的转换;

  • 底层解码器结合当前机器人本体的特有参数(如运动学模型),将动作token实时翻译为精准的可执行控制指令。

这种任务、动作、控制逐层解耦的设计,不仅保障了模型卓越的跨本体迁移性和可解释性,也为模型在多种异构机器人体系上实现零样本泛化和稳定执行提供了坚实的技术基础。

简而言之,RoboBrain-X0让机器人像人一样,先想清楚要做什么,再考虑怎么做,最后才是具体怎么动,为通用机器人技术落地铺平了道路。


跨本体真机数据集全面开放


要让同一个基座适配不同机器人,数据是决定性因素。RoboBrain-X0背后的关键支撑,是一套面向真实世界的跨本体训练数据集,包含了:

  • 视觉与语义理解数据:在视觉问答与推理的基础上,补充物体检测、轨迹生成、affordance查询与动作规划等与真实交互强相关的任务,帮助模型把「看见」转化为「可操作的理解」;

  • 开源动作数据整合:融入如Agibot World等多场景开源动作数据,拓展任务覆盖与多域泛化能力;

  • 本体厂商合作开源数据:与头部厂商合作采集到的覆盖多样场景的操作轨迹,强化跨本体可迁移性与工程可复现性;

  • 自采高质量轨迹:提供「指令—动作」与「指令—子任务推理—动作」两类样本,既适配短指令执行,也支持长程任务分解、进度感知与动态决策。

这次智源也同时开源了这一数据集,对于想做多本体迁移、长时序控制或高层规划的团队,是一个很好的可比较、可复现、可扩展的起点。


硬刚π0,真实世界任务成功率翻倍


RoboBrain-X0的领先性已在仿真与真实世界测试中得到充分验证。

在权威的LIBERO仿真平台中,RoboBrain-X0的综合成功率高96.3%,在所有评测维度均超越了π0。

LIBERO仿真评测结果

更令人瞩目的是,在对多种真实机器人进行的跨本体评测中,RoboBrain-X0的总体成功率达到48.9%,是基线模型π0的近2.5倍,并在基础抓放任务中达到100%的成功率。

无论是「把卷笔刀放到订书机左边」(任务1)这种需要精确空间推理的任务,还是「将所有水果放到碗里」这类涉及多目标的操作(任务4),都表现出了RoboBrain-X0在应对真实世界复杂任务时的卓越泛化能力与稳定性。

真机评测结果


从引擎到生态,智源全面开源


智源此次选择将RoboBrain-X0这一预训练基座和相关训练数据集全面开源。

在今年7月的智源大会上,智源全面开源具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0单机版。

RoboBrain 2.0的定位是面向真实物理环境的「通用具身大脑」,32B版本凭借时空认知能力的突破,在多项权威具身智能基准上全面刷新纪录。

RoboOS 2.0作为全球首个具身智能SaaS开源框架,创新性集成MCP协议与无服务器架构,实现轻量化部署,打通智能大脑与异构本体协同通路。

这一系列发布,清晰地勾勒出智源的战略雄心:先通过一个强大的成品(RoboBrain 2.0)树立行业标杆,证明技术路线的潜力;再将实现这一切的底层核心技术「引擎」(RoboBrain-X0和训练数据集)贡献给社区,将创新的权利交到每一位开发者手中。

当然,通往通用具身智能的道路依然漫长。模型的鲁棒性、长时程任务的规划能力,以及对更复杂动态环境的适应性,仍有待进一步提升。但通过开源其核心的「泛化引擎」,智源无疑为整个社区注入了强大的动能。

一个由全球开发者共同构建的、百花齐放的具身智能生态,正在加速到来。

参考资料:
https://github.com/FlagOpen/RoboBrain-X0
https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset
https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652631110&amp;idx=2&amp;sn=14ee970f839e44c2b0f6649e67f2c76b&amp;chksm=f064d8e3e4a6dcbb18da30fecc7e2737b3143b5aec742e3dc1d39c55482de8ca9050642379e5&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/rEeqNGBQOi&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们