动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考



  新智元报道  

编辑:好困
【新智元导读】从马拉松冠军到最强大脑,这次的突破不再是四肢,而是灵魂。


中国人形机器人,再获突破性进展!
昨天,全球参数量最大的具身智能多模态大模型——Pelican-VL 1.0正式开源。
它不仅覆盖了7B到72B级别,能够同时理解图像、视频和语言指令,并将这些感知信息转化为可执行的物理操作。
而且还针对目前具身能力短板,在空间理解、物理推理和思维链等维度实现了系统性提升,并在12个主流公开评测基准上达到行业领先水平。
可以说,Pelican-VL 1.0的提出,打通了从「看懂世界」到「动起来」的完整智能链路。

项目主页:

https://pelican-vl.github.io/

Github:

https://github.com/Open-X-Humanoid/pelican-vl

Hugging Face:

https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B

ModelScope:

https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B


而这背后,便是创造全球首个人形机器人马拉松冠军的团队——北京人形机器人创新中心。
当前,通用大模型在迁移到具身智能任务时,仍面临多维度能力欠缺的问题。
李飞飞教授提出过Think in Space的观点,强调走向具身智能需要解决空间智能问题的重要性。英伟达和谷歌也在研究中指出,具身领域的大模型必须具备物理智能,并相继推出了Cosmos-Reason和Gemini-RoboticsER这类面向具身场景的多模态大模型。
无独有偶,创新中心也希望通过全面开源Pelican-VL这一基础大脑模型,帮助更多具身智能体获得更强的认知与决策能力,并在意图理解、长程任务规划推理等多类场景中实现性能提升。
具体来说,通过「刻意练习」(DPPO)训练范式,Pelican-VL在不断自我诊断与纠错中提升推理与规划能力,使模型像人类一样在失败中学习,从而实现了视觉理解、语言表达和物理执行的深度融合。
凭借这一机制,Pelican-VL在多个维度展现出突破性能力:
  • 具备跨模态的理解与推理能力,能在复杂环境中识别目标、推断物体功能与可供性;
  • 具备时间-空间认知,能理解动作的顺序与因果关系。
模型的自进化循环使其在每一轮训练后都能修正弱点,形成持续强化的学习闭环。Pelican-VL不仅是一种模型,更是一个能够驱动机器人系统不断进化的「智能引擎」。
总体上,论文报告称相较基线模型,在空间理解和时间推理等能力上出现显著提升,并在若干公开基准上超过了部分100B量级的开源模型。

Pelican-VL的推出不仅是一次技术突破,更为产业界与学术界带来了双重启示。
它首先构建了一套贯通「视觉理解—长程规划—物理操作」的通用训练范式,提供了一个可复用、可扩展的范式,降低了具身智能研发的门槛。
与此同时,团队开放了模型与推理框架,为科研机构和企业提供了一个可自由定制、快速迭代的智能基座,加速了从实验到落地的过程。
更深层的意义在于,Pelican-VL让「机器人自主学习和反思」从理念走向现实。
它的「刻意练习」机制使模型能在错误中总结经验、持续进化,如同人类通过反复训练掌握技能。
这意味着未来的机器人不再只是机械执行者,而是具备认知与改进能力的学习体。
可以想象,在家庭或工业场景中,它将能够自主判断物体用途、调节操作力度、优化行动策略——从被动执行迈向主动理解与自我成长,标志着具身智能迈入真正的「学习时代」。

智能抓取
实现精细抓取泛化操作新突破


抓取一个水杯或一枚鸡蛋时,基于Pelican-VL的大脑会瞬间完成一系列精密的操作:

通过视觉预判物体属性、在接触瞬间施加恰到好处的力道、并在触碰后根据手感微调抓力。


这套由主动预测、触觉适应与记忆更新构成的「感知运动闭环」,是灵巧抓取的关键。

而这项能力正是具身智能机器人与物理世界交互的基础,但却面临着触觉感知与运动灵活的协同难、复杂场景下的泛化难、算法与数据制约等等难题,目前行业内即便有相关技术突破,也仍未完全解决大规模落地的难题。

如今,Pelican-VL驱动的机器人抓取框架,成功复现并实现了这一高级智能。

仿生核心:Pelican-VL构建的智能抓取闭环


技术框架严格遵循了人类感知运动的三个核心环节,并将其转化为可执行的机器人系统:

1. 主动预测:提供精准的「第一印象」

在机械臂接触物体前,Pelican-VL大模型凭借其卓越的视觉感知与真实世界物理推理能力,仅通过视觉输入,就能精准预测出物体的物理属性(如材质、易碎度),并生成初始抓取力。

这为机器人提供了如同人类般的「先见之明」,使其从指尖接触的一刻起,就具备了恰到好处的基准夹持力,通过模型提供前馈信息缩短闭环控制稳定时间。

2. 触觉适应:实现毫秒级的「手感微调」

在抓取和操控过程中,指尖的触觉传感器会实时传回微滑移、受力分布等数据。系统通过一个同步的在线摩擦估计与自适应抓取控制模块像人类神经反射一样,持续、快速地微调抓力。

这不仅确保了抓取的稳定性,更关键的是能动态适应不确定因素,避免对精致、柔软的物品造成损伤

3. 记忆更新:打造持续进化的「经验库」

每次抓取任务完成后,系统会对比预测与实际感官结果的差异,并将这次成功的交互经验存储在一个物理记忆图谱中

当下一次遇到相同或类似的物体时,Pelican-VL会优先调用这个更新、更精确的记忆来指导预测。使机器人系统具备持续学习的能力,每一次抓取都在为下一次更精准、更柔和的操作打下基础

实战验证:轻松拿捏精致与柔软物体


在实际机器人测试中,该框架展现出了卓越的性能。

从接近、加载、提升、持稳到运输归还的完整七阶段抓取流程中,Pelican-VL驱动的机器人能稳定操作一系列精致与柔性物体。

  • 看得准:由Pelican-VL提供的精准初始力先验,极大地加速了后续自适应控制器的收敛过程。

  • 抓得稳:在线控制器在提升、移动过程中持续动态调整抓力,有效应对惯性等扰动,确保抓取万无一失。

  • 学得快:整个交互过程形成的经验被存入知识图谱,系统像一位经验丰富的老师傅,越用越熟练。

通过将Pelican-VL大模型的强大认知能力与实时控制、记忆系统深度融合,机器人抓取从简单的「执行命令」升级为了具备预测、反应与学习能力的智能行为。

这一能力使机器人在低成本低样本的条件下依然能够实现高度泛化、更加柔性的抓取表现,为行业带来了真正可规模化落地的智能抓取方案。

这不仅是技术上的一个里程碑,更为机器人在复杂、非结构化环境中真正实现自主操作,打开了无限可能的大门。


VLM让VLA实现能力跃迁


在典型的Vision–Language–Action(VLA)系统里,Pelican-VL扮演着「视觉语言大脑」的角色,为机器人提供强大的环境感知和指令理解能力。

它将摄像头所见与自然语言指令结合,构建起对场景的多模态表征,然后输出可供后续决策单元使用的结构化信息。

也就是说,Pelican-VL负责「看图听话」,理解指令和环境,VLA负责跨机器人应用;二者组合可以在多种机器人上执行多任务。

有了这样的基础,系统可以完成长时序、多步骤的任务规划和执行。

Pelican-VL等具身智能模型可部署在商超、家居等多种真实场景中,通过视觉-语言感知辅助多步任务规划

论文中演示了一个生活场景下的复合指令:例如「把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶,再把衣服放入洗衣机」。

Pelican-VL首先感知房间物体和布局,构建出整个环境的语义表示;接着根据指令自动生成行动序列:依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。

在这一过程中,模型不断更新内部环境状态,调整计划并适应实际情况,实现了自然语言指令的自主分解和执行。

简而言之,Pelican-VL构成了VLA系统的认知前端,为长期规划和指令执行提供跨模态的信息支持,使机器人能够像人类一样将复杂任务拆解并落地操作。

商超场景-pelican超市收银员

家庭场景-pelican家务整理助手

长程任务场景-pelican实验助手

同时,在快慢系统、端到端等诸多架构中,前沿探索者们也一直在致力于研究当VLA以VLM为基座时,VLM各项能力为度对VLA模型所带来的性能增益。

例如DeepMind的RT-Affordance,李飞飞的ReKep以及Sergey Levine的Training Strategies for Efficient Embodied Reasoning等著名学者和机构都曾探讨过可供性、思维链等能力对于具身操作的重要性

对此,Pelican-VL针对性地进行了能力提升,并在多个维度中达到行业领先水平。

RT-Affordance项目地址:https://snasiriany.me/rt-affordance

ReKep项目地址:https://rekep-robot.github.io/


跨本体具身大脑实现多机协作


Pelican-VL具备不同层级的机器人任务规划调度能力,可根据场景生成机器人行为规划,并将其转化为具体机器人功能函数的执行调用,作为多机器人系统的任务调度器。

论文中给出一个多机器人协作流水线的开发示例:

在一个灯泡质检流程中,Pelican-VL将任务按机器人拆分为若干行为层任务,进而生成不同机器人动作层的函数调用。


例如,它会生成对「轮式人形机器人」执行「检查电控柜并启动系统」的函数调用指令,也会为双臂机器人生成「对灯泡进行结构与功能检测」的调用。

对于通用的操作函数,生成所需的控制参数,由专门的运动规划模块将其转化为关节轨迹和夹爪动作。

这种方式类似于一个项目经理给不同的团队下达精确的工作指令,Pelican-VL则通过多轮对话和分步指令,确保多台机器人的协同工作。

基于稳定多视角可供性的零样本操作


在更加通用的操作场景下,论文也给出了一个基于可供性进行任意物体操作的例子。

Pelican-VL先输出详细的视觉定位和功能性描述(如目标物体的抓取点、放置位置等),然后利用函数调用机制触发操作。

例如在通用抓取演示中,它会先生成多视角下的一致性预估(如抓取点、避障区域)以保证空间定位准确;接着将这些计划通过接口调用下发给运动控制单元。

这一流程就像「思维链」式的中间规划:模型内部先思考出清晰的步骤,再把每步落成可执行的函数调用,确保执行过程可控且透明。

通过函数调用,Pelican-VL不仅能处理单机任务,也可管理多机器人协作任务,进一步彰显了其在复杂系统中的实用性。


结语


此次Pelican-VL的开源,对于人形机器人产业与研究而言带来了两个正向价值:

  • 首先它提供了一整套「视觉理解→长程规划→物理操作」串联的可复用训练范式,降低了在机器人中使用 VLM 的门槛;

  • 其次,借助开源基础模型和推理代码,所有其他实验室或企业都可以在这个「脑」上做定制化训练,加速人形机器人在各行各业的落地探索。

作为拿下过全球首个人形机器人马拉松冠军、百米赛跑冠军的团队,北京人形机器人创新中心已经推出了具身智能的通用硬件平台「具身天工」和通用软件平台「慧思开物」两个开放平台,如今又在VLM上实现了重大突破。

不难看出,一切都是为产业落地提供更良好土壤,让国内的机器人厂商和开发者可以自由使用与定制人形机器人,加速研发进程,并且正在让具身智能机器人从最能跑,演化到最聪明和最好用的更高阶段。

根据了解,目前北京人形机器人创新中心还在推进「千台机器人真实场景数据采集计划」,让上千台机器人在工厂、仓库、酒店等场景中执行任务并采集数据。

而这些规模化的多模态数据与Pelican-VL结合,将推动其在制造业自动化、智能物流、零售无人化和家居服务等多领域的快速适配和优化。

对于制造业企业来说,基于Pelican-VL快速开发特定场景下的应用方案,可大大降低开发成本和难度。

长期来看,Pelican-VL及其后续版本将促进国内形成完善的通用机器人智能平台,推动更多种类的机器人像安装「通用智能操作系统」一样迅速获取新能力,让人形机器人更低门槛、低成本、高效率的走进不同制造业、工业体系。

参考资料:
https://pelican-vl.github.io/
https://github.com/Open-X-Humanoid/pelican-vl
https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B
https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652645371&amp;idx=1&amp;sn=d6227a2bba1cf102d75aeeee645d565d&amp;chksm=f08c9b3017d0f973bd522221790faeb95f36b5967af7a432fb33d11f275e6272956c268147e8&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/FEvhQetBUB&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们