新智元报道
新智元报道
【新智元导读】从马拉松冠军到最强大脑,这次的突破不再是四肢,而是灵魂。
项目主页:
https://pelican-vl.github.io/
Github:
https://github.com/Open-X-Humanoid/pelican-vl
Hugging Face:
https://huggingface.co/X-Humanoid/Pelican1.0-VL-72B
ModelScope:
https://modelscope.cn/models/X-Humanoid/Pelican1.0-VL-72B
具备跨模态的理解与推理能力,能在复杂环境中识别目标、推断物体功能与可供性; 具备时间-空间认知,能理解动作的顺序与因果关系。
当抓取一个水杯或一枚鸡蛋时,基于Pelican-VL的大脑会瞬间完成一系列精密的操作:
通过视觉预判物体属性、在接触瞬间施加恰到好处的力道、并在触碰后根据手感微调抓力。
这套由主动预测、触觉适应与记忆更新构成的「感知运动闭环」,是灵巧抓取的关键。
而这项能力正是具身智能机器人与物理世界交互的基础,但却面临着触觉感知与运动灵活的协同难、复杂场景下的泛化难、算法与数据制约等等难题,目前行业内即便有相关技术突破,也仍未完全解决大规模落地的难题。
如今,Pelican-VL驱动的机器人抓取框架,成功复现并实现了这一高级智能。
技术框架严格遵循了人类感知运动的三个核心环节,并将其转化为可执行的机器人系统:
1. 主动预测:提供精准的「第一印象」
在机械臂接触物体前,Pelican-VL大模型凭借其卓越的视觉感知与真实世界物理推理能力,仅通过视觉输入,就能精准预测出物体的物理属性(如材质、易碎度),并生成初始抓取力。
这为机器人提供了如同人类般的「先见之明」,使其从指尖接触的一刻起,就具备了恰到好处的基准夹持力,通过模型提供前馈信息缩短闭环控制稳定时间。
2. 触觉适应:实现毫秒级的「手感微调」
在抓取和操控过程中,指尖的触觉传感器会实时传回微滑移、受力分布等数据。系统通过一个同步的在线摩擦估计与自适应抓取控制模块,像人类神经反射一样,持续、快速地微调抓力。
这不仅确保了抓取的稳定性,更关键的是能动态适应不确定因素,避免对精致、柔软的物品造成损伤。
3. 记忆更新:打造持续进化的「经验库」
每次抓取任务完成后,系统会对比预测与实际感官结果的差异,并将这次成功的交互经验存储在一个物理记忆图谱中。
当下一次遇到相同或类似的物体时,Pelican-VL会优先调用这个更新、更精确的记忆来指导预测。使机器人系统具备持续学习的能力,每一次抓取都在为下一次更精准、更柔和的操作打下基础。
在实际机器人测试中,该框架展现出了卓越的性能。
从接近、加载、提升、持稳到运输归还的完整七阶段抓取流程中,Pelican-VL驱动的机器人能稳定操作一系列精致与柔性物体。
「看得准」:由Pelican-VL提供的精准初始力先验,极大地加速了后续自适应控制器的收敛过程。
「抓得稳」:在线控制器在提升、移动过程中持续动态调整抓力,有效应对惯性等扰动,确保抓取万无一失。
「学得快」:整个交互过程形成的经验被存入知识图谱,系统像一位经验丰富的老师傅,越用越熟练。
通过将Pelican-VL大模型的强大认知能力与实时控制、记忆系统深度融合,机器人抓取从简单的「执行命令」升级为了具备预测、反应与学习能力的智能行为。
这一能力使机器人在低成本、低样本的条件下依然能够实现高度泛化、更加柔性的抓取表现,为行业带来了真正可规模化落地的智能抓取方案。
这不仅是技术上的一个里程碑,更为机器人在复杂、非结构化环境中真正实现自主操作,打开了无限可能的大门。
在典型的Vision–Language–Action(VLA)系统里,Pelican-VL扮演着「视觉语言大脑」的角色,为机器人提供强大的环境感知和指令理解能力。
它将摄像头所见与自然语言指令结合,构建起对场景的多模态表征,然后输出可供后续决策单元使用的结构化信息。
也就是说,Pelican-VL负责「看图听话」,理解指令和环境,VLA负责跨机器人应用;二者组合可以在多种机器人上执行多任务。
有了这样的基础,系统可以完成长时序、多步骤的任务规划和执行。
Pelican-VL等具身智能模型可部署在商超、家居等多种真实场景中,通过视觉-语言感知辅助多步任务规划
论文中演示了一个生活场景下的复合指令:例如「把鞋子放到鞋架上、将桌上的垃圾扔到垃圾桶,再把衣服放入洗衣机」。
Pelican-VL首先感知房间物体和布局,构建出整个环境的语义表示;接着根据指令自动生成行动序列:依次移动到鞋架、垃圾桶和洗衣机位置并进行抓取和放置操作。
在这一过程中,模型不断更新内部环境状态,调整计划并适应实际情况,实现了自然语言指令的自主分解和执行。
简而言之,Pelican-VL构成了VLA系统的认知前端,为长期规划和指令执行提供跨模态的信息支持,使机器人能够像人类一样将复杂任务拆解并落地操作。
商超场景-pelican超市收银员
家庭场景-pelican家务整理助手
长程任务场景-pelican实验助手
同时,在快慢系统、端到端等诸多架构中,前沿探索者们也一直在致力于研究当VLA以VLM为基座时,VLM各项能力为度对VLA模型所带来的性能增益。
例如DeepMind的RT-Affordance,李飞飞的ReKep以及Sergey Levine的Training Strategies for Efficient Embodied Reasoning等著名学者和机构都曾探讨过可供性、思维链等能力对于具身操作的重要性。
对此,Pelican-VL针对性地进行了能力提升,并在多个维度中达到行业领先水平。
RT-Affordance项目地址:https://snasiriany.me/rt-affordance
ReKep项目地址:https://rekep-robot.github.io/
Pelican-VL具备不同层级的机器人任务规划调度能力,可根据场景生成机器人行为规划,并将其转化为具体机器人功能函数的执行调用,作为多机器人系统的任务调度器。
论文中给出一个多机器人协作流水线的开发示例:
在一个灯泡质检流程中,Pelican-VL将任务按机器人拆分为若干行为层任务,进而生成不同机器人动作层的函数调用。
例如,它会生成对「轮式人形机器人」执行「检查电控柜并启动系统」的函数调用指令,也会为双臂机器人生成「对灯泡进行结构与功能检测」的调用。
对于通用的操作函数,生成所需的控制参数,由专门的运动规划模块将其转化为关节轨迹和夹爪动作。
这种方式类似于一个项目经理给不同的团队下达精确的工作指令,Pelican-VL则通过多轮对话和分步指令,确保多台机器人的协同工作。
在更加通用的操作场景下,论文也给出了一个基于可供性进行任意物体操作的例子。
Pelican-VL先输出详细的视觉定位和功能性描述(如目标物体的抓取点、放置位置等),然后利用函数调用机制触发操作。
例如在通用抓取演示中,它会先生成多视角下的一致性预估(如抓取点、避障区域)以保证空间定位准确;接着将这些计划通过接口调用下发给运动控制单元。
这一流程就像「思维链」式的中间规划:模型内部先思考出清晰的步骤,再把每步落成可执行的函数调用,确保执行过程可控且透明。
通过函数调用,Pelican-VL不仅能处理单机任务,也可管理多机器人协作任务,进一步彰显了其在复杂系统中的实用性。
此次Pelican-VL的开源,对于人形机器人产业与研究而言带来了两个正向价值:
首先它提供了一整套「视觉理解→长程规划→物理操作」串联的可复用训练范式,降低了在机器人中使用 VLM 的门槛;
其次,借助开源基础模型和推理代码,所有其他实验室或企业都可以在这个「脑」上做定制化训练,加速人形机器人在各行各业的落地探索。
作为拿下过全球首个人形机器人马拉松冠军、百米赛跑冠军的团队,北京人形机器人创新中心已经推出了具身智能的通用硬件平台「具身天工」和通用软件平台「慧思开物」两个开放平台,如今又在VLM上实现了重大突破。
不难看出,一切都是为产业落地提供更良好土壤,让国内的机器人厂商和开发者可以自由使用与定制人形机器人,加速研发进程,并且正在让具身智能机器人从最能跑,演化到最聪明和最好用的更高阶段。
根据了解,目前北京人形机器人创新中心还在推进「千台机器人真实场景数据采集计划」,让上千台机器人在工厂、仓库、酒店等场景中执行任务并采集数据。
而这些规模化的多模态数据与Pelican-VL结合,将推动其在制造业自动化、智能物流、零售无人化和家居服务等多领域的快速适配和优化。
对于制造业企业来说,基于Pelican-VL快速开发特定场景下的应用方案,可大大降低开发成本和难度。
长期来看,Pelican-VL及其后续版本将促进国内形成完善的通用机器人智能平台,推动更多种类的机器人像安装「通用智能操作系统」一样迅速获取新能力,让人形机器人更低门槛、低成本、高效率的走进不同制造业、工业体系。
<br>
<a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652645371&idx=1&sn=d6227a2bba1cf102d75aeeee645d565d&chksm=f08c9b3017d0f973bd522221790faeb95f36b5967af7a432fb33d11f275e6272956c268147e8&scene=0#rd" target="_blank">文章原文</a>
<br>
<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/FEvhQetBUB&maxage=1y" width="1px"></div></div></body></html>