新智元报道
新智元报道
【新智元导读】全球具身智能的玩家们的算法究竟谁更厉害?为了避免「关公战秦琼」,一个LMArena式的统一的全球具身智能算法评测标准亟待出现。专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face,推出了RoboChallenge项目,成为全球首个大规模、多任务的真实物理机器人基准评测平台。
RoboChallenge项目
在机器人智能领域,一个长期存在的问题是「模拟到现实的落差」,即算法在模拟环境中表现优异,却难以在真实世界复现。
这种现实鸿沟制约了具身智能算法的真正落地。
没有一个权威、统一、客观的评测标准,也是具身智能算法在比较中发现并突破短板的一大障碍。
针对这些痛点,专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face共同发起了RoboChallenge项目——全球首个大规模、多任务的真实物理机器人基准评测平台。
RoboChallenge通过让真实机器人执行许多种截然不同的任务,考验了包括但不限于软体物体处理、双臂协同以及多阶段连续操作等难点,充分考验算法对现实世界的理解与泛化能力,为研究者提供了一个严谨、公正的现实环境测评方式,旨在弥合模拟测试与现实部署之间的差距。
研发者即使没有实体机器人,也可以通过远程接入平台,在真实机械上验证算法,为具身智能的研究和应用提供坚实的试金石。
传统的机器人竞赛或评测通常要求参赛者提交模型代码,在主办方环境中运行,这往往导致环境兼容性问题、推理时延以及安全控制隐患。
RoboChallenge创新采用了「远程机器人」架构:用户无需提交模型或Docker镜像,模型始终在用户本地运行,通过开放API远程控制平台上的真实机器人。
这种设计克服了跨环境部署的种种难题——不同计算架构和软件栈的兼容性不再是障碍,用户可在本地熟悉的环境实时推理,同时平台通过HTTP异步队列接收动作指令,保证机器人操作的安全可控。
研发者通过API请求远程获取传感器观测(RGB-D相机、机器人状态等),再将本地模型计算得到的动作序列发送到云端动作队列,由真实机器人依序执行。整个过程无需公开用户模型或提供公网服务接口,适配各种网络环境。
这一远程评测方法有效解决了模型部署难题,保障了评测过程的灵活性与安全性,让更多研究者可以零门槛参与真机测试。
就已公开的真机评测而言,评测任务的数量通常为3-5个,且多为基础性操作,例如某国际比赛中只要求机器人推动或抬起一个立方体。
相比之下,RoboChallenge推出了首个涵盖30项真实任务的基准测试集——Table30,规模和丰富度全球领先。
这30个桌面任务经过精心设计,场景多样,难度梯度分明,涵盖了软体物体处理、双臂协同以及多阶段连续操作等挑战。
例如,任务中机器人可能需要处理毛巾、纸张等柔性物品;执行装配、开关操作时必须双臂同时配合;还有许多任务需要按顺序完成多个步骤,属于长程多阶段流程。
这些任务远超以往基准的复杂度和覆盖面,充分考验算法对现实世界的理解与泛化能力。
据RoboChallenge技术论文介绍,Table30围绕固定桌面场景,但强调多种问题类型,对视觉、语言理解、运动规划等各方面能力都提出考验。
如此大规模且丰富的真实任务集合,使RoboChallenge真正成为全面检验具身智能算法的「试炼场」。
为了测试算法的泛化能力,RoboChallenge并非局限于单一机器人硬件,而是通过接入四类主流机器人平台来帮助开发者验证算法能力。包括常见的6自由度工业机械臂UR5(配备Robotiq手爪)和7自由度Franka Emika Panda机械臂(更换了Robotiq抓手),以及双臂移动平台「Cobot Magic Aloha」(安装在移动底盘上的两个6自由度机械臂,模拟Google ALOHA系统),还有国产的新型6自由度机械臂ARX-5。
这些硬件覆盖了从单臂到双臂、固定基座到移动平台的多种形态,都是学术界和工业界常用的机器人型号。
同时,平台为每台机器人配置了多个RealSense深度摄像头等传感器,提供丰富的感知信息。
通过同时支持多机器人环境,RoboChallenge使算法可以在不同机型和场景下反复测试,观察模型在跨硬件、跨场景条件下的表现。
这种广泛的硬件覆盖为验证算法的通用性和鲁棒性奠定了基础,也方便研究者针对不同机器人定制和评估其算法。
在评测指标上,RoboChallenge设计了科学且严谨的双重量化标准,确保结果的稳定性与可比性。
首先是任务成功率(Success Rate, SR):每项任务平台会重复进行多次测试(如10次),统计模型完整完成任务的比例作为成功率。
然而,仅有成功/失败无法细致区分模型优劣,为此平台引入了任务进度评分(Progress Score)机制。
每个任务被划分为若干关键阶段,每完成一阶段即累加对应的进度分值,总分满分为10。
如果模型在最后一步失败,即使成功率为0,也能通过先前阶段的得分反映其部分能力;
反之即使任务成功,若多次反复尝试(比如抓取多次失败后才成功),进度分会因多次重试扣分而降低,从而惩罚不稳定的策略。
例如在「开抽屉」任务中,机器人臂移动到抽屉附近、抓稳把手、拉开抽屉、返回原位等各阶段都有分值,某阶段多次尝试则扣分,确保评分细粒度且客观公正。
最终每个任务同时给出成功率和进度得分两项指标,用以全面衡量算法的表现。
双指标评测不仅能刻画算法在不同难度任务上的局部表现,还通过多次重复试验保证结果具有统计稳定性,不同算法的排名对比也更加公平可信。
开放性是RoboChallenge平台的重要原则。
为了降低入门门槛、提升评测的公平性,平台为每项任务提供了丰富的示范数据和基准代码支持。
一方面,官方公开了每个任务的示范轨迹数据,总计超过千条(每个任务最多提供1000个示范记录)。
研究者可以利用这些真实机器人示范数据对模型进行微调学习,然后再提交评测,确保模型在同等信息基础上进行对比。
这种做法类似于计算机视觉领域公布训练数据集以供算法微调,有助于公平比较各算法效果。
另一方面,平台还开放了评测所需的接口和参考代码,包括如何调用远程API、获取传感器信息、格式化动作指令等,使参赛者能够方便地接入自己的算法。
所有测试过程中的机器人执行轨迹和录像也会公布在平台网站上,进一步增强结果的透明度和可复现性。
通过开放数据与代码,RoboChallenge希望构建一个开放协作的研究生态,促使不同团队的算法在相同起点上竞争,推动具身智能算法的快速进步。
RoboChallenge平台自启动以来,已有参与者加入测试,为平台的权威性和价值提供了有力验证。
根据官方披露的信息,目前已有多种不同的算法模型在Table30基准上完成了测评。
其中2种是由官方团队基于当下热门的「π系列」模型(Physical Intelligence系列)实现,包括开源算法π0及其增强版π0.5。
通过对主流开源VLA模型算法进行测试,结果显示最新发布的π0.5相较其他模型取得显著优势,但也无法在所有任务上都取得较高的成功率。
由此可见,RoboChallenge基准测试可以作为迈向通用机器人技术的必要性检验。
此外,评测还涵盖了微软开源的CogACT(一种将认知与动作结合的VLA模型)和OpenVLA等其他模型。
这些算法代表了当前具身智能领域的前沿探索,在RoboChallenge统一真实环境下同台竞技,取得了明显差异化的结果。
π0.5模型在大部分任务上取得了领先的成功率和进度评分,显示出更强的综合实力。
参与者不仅为平台积累了初步基准数据,也证明了RoboChallenge评测体系的可用性和公正性。
随着平台的推广,预计将有更多产学研团队提交他们的最新算法,在RoboChallenge上验证效果、发现不足,形成良性的研究循环。
作为全球首创的大规模真机评测平台,RoboChallenge为具身智能研究搭建了一个开放、严谨的现实试验场。
它打破了硬件壁垒和环境限制,让全球的研究人员和企业都能便捷地在真实机器人上验证算法,共享标准化的评测基准。
这种开放协作的模式,有望加速具身智能算法从实验室走向现实世界:
一方面,通过持续的公开评测和数据共享,促使算法不断迭代进步;
另一方面,产业界也可以参考评测结果挑选成熟方案,加快技术落地应用。
全球对机器人与AI感兴趣的研究者和从业者皆可加入RoboChallenge,共同挑战这些真实世界的复杂任务。
在这一开创性的评测平台上所有人集思广益、同台竞逐,推动具身智能迈向新的高度,早日让智能机器人真正走入现实生活。
据悉,后续RoboChallenge将通过举办挑战赛、研讨会及数据共享,积极推动社区共建,鼓励研究者参与任务设计与优化,平台还提供多维度细分排行榜,支持算法性能的深度分析,共同推进具身智能核心问题的解决。
Join RoboChallenge. This Is Your Opportunity To Shine!
RoboChallenge全球首发同时还有两场相关主题的重磅直播,欢迎预约观看!
附录:真机评测回放界面详解
这是RoboChallenge的一次真机评测回放界面(基于app.rerun.io的Rerun Viewer)。
同一时间轴上同步显示了多路视频与机器人传感/控制数据:关节角、夹爪开合度等。
它让研究者可以像「示波器+监控录像」那样,逐帧回看模型在真实机器人上的行为与决策。
① 左栏:数据树(Recordings/Streams)
Recordings(Local)
:当前打开的录制文件(一次评测/回放)。分组如
videos_1/videos_2/videos_3
:多路相机视频流(例如俯视、腕部、侧视)。arm/cur_joint/joint_1…joint_6
:六个关节的时间序列数据。arm_gripper
:夹爪张开程度随时间变化的曲线。作用:像文件夹一样勾选/隐藏某个数据流,或快速跳转定位。
② 中上:视频与多窗口画布(Blueprint/Containers)
你看到三张小缩略图,代表三个视频流的当前帧(对应
videos_1/2/3
)。作用:对照观察同一时刻,不同视角下的操作细节(例如抓取前的姿态、碰撞、遮挡等)。
③ 中右:数据曲线面板(arm/arm_gripper)
上图「arm」:六条曲线分别对应
joint_1 … joint_6
,纵轴为角度(弧度),横轴为时间。
下图「arm_gripper」:紫色曲线表示夹爪开合度,变化阶梯清晰可见(开、合、再次开合……)。
作用:将动作策略可视化——比如判断是否因为夹爪未充分张开导致抓取失败、或某个关节出现异常振荡。
④ 右栏:所选实体的元信息(Selection/Data)
当前选择的是
videos_1
:编码解码器:H.264
分辨率:640×480
比特深度:8,下采样:4:2:0
帧数:1109
正在查看的解码帧编号:#1108
作用:核对数据质量与一致性(帧率、分辨率、编码),排查回放/同步问题。
⑤ 底部:统一时间轴(Timeline)
时间戳(UTC)示例:
2025-09-20 05:11:02…
每条「灰条」代表一个数据流的时间覆盖区间;黑色竖线为当前播放指针。
作用:逐帧对齐视频与传感曲线;支持回放/暂停/慢放,定位到关键事件(抓取、放置、开关等)。
定位失败原因:在视频里看到抓取滑脱,同时在「arm_gripper」曲线发现夹爪开度未达阈值;再看关节曲线是否出现抖动/超调,判断是策略问题还是控制/摩擦导致。
验证「进度评分」阶段:对照任务脚本(如「到位→对准→抓取→撤回」),在时间轴上标注关键帧,确认每一步是否完成及重试次数,为评分提供证据。
多视角数据交叉印证:当俯视图被遮挡(例如手臂自遮挡),可切到腕部/侧视视频,避免单视角误判。
模型对时与延迟测量:通过观察「感知帧到动作曲线变化」的时间差,估算推理/通信延迟,优化远程推理的节奏(比如动作分块下发)。
可复盘、可追责、可量化:同一时间线上联动「看得见」(视频)与「量得出」(曲线)的证据链,支撑公平评测与问题诊断。
跨团队共享语境:所有参与者能基于同一回放界面讨论模型行为,减少「口述不一致」。
工程与学术双友好:既能做工程调参(时序、编码、传感质量),也能做学术分析(策略稳定性、阶段完成度、重试惩罚等)。
在左栏切换/勾选数据流,避免信息过载。
用时间轴放大窗口对准某一次抓取瞬间,配合右侧元数据核对帧号。
发生异常时,先看夹爪曲线与末端关节是否同步异常;再回看多视角视频确认是否有遮挡/打滑。
<br>
<a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&mid=2652634917&idx=1&sn=f12b0ae3c2b2df794363020ce2ca0ac3&chksm=f0657bffb332f50a1bbf5dde801bb85eb5387b21da30a734a379c981a2d1142756710668727b&scene=0#rd" target="_blank">文章原文</a>
<br>
<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/iRiv789ZIr&maxage=1y" width="1px"></div></div></body></html>