动态列表

  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋
  • 永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍
  • 濒死3次,医生判他死刑!宾大教授奇迹自救,誓用AI攻克14000种绝症
  • 告别「解码器饥饿」!中国科学院NeurIPS推SpaceServe,高并发克星
  • Bug变奖励:AI的小失误,揭开创造力真相!
  • 复旦张军平:人类是硅基生命过渡体?
  • Meta Ray-Ban Display 首发体验合集:悬浮在现实中的一张便签
  • OriginOS 6 深度体验:当操作系统回归「体验为王」
  • 93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线
  • Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式
  • 不到1 年卖出 40 万台,吉利星愿做对了什么?
  • NeurIPS 2025 | NTN-Diff:一石二鸟,利用空文本与频率感知破解图像修复难题
  • NeurIPS 2025 | Latent Harmony:潜空间和谐共生,实现UHD图像修复新SOTA
  • 马斯克脑机公司展示脑机控制机械臂;三星中国发布折叠屏新机,16999 元起售;滴滴自动驾驶获 20 亿元融资 | 极客早知道
  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能

具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了



  新智元报道  

编辑:艾伦
【新智元导读】全球具身智能的玩家们的算法究竟谁更厉害?为了避免「关公战秦琼」,一个LMArena式的统一的全球具身智能算法评测标准亟待出现。专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face,推出了RoboChallenge项目,成为全球首个大规模、多任务的真实物理机器人基准评测平台。

RoboChallenge项目

在机器人智能领域,一个长期存在的问题是「模拟到现实的落差」,即算法在模拟环境中表现优异,却难以在真实世界复现。

这种现实鸿沟制约了具身智能算法的真正落地。

没有一个权威、统一、客观的评测标准,也是具身智能算法在比较中发现并突破短板的一大障碍。

针对这些痛点,专注大模型与机器人深度融合的具身智能新势力Dexmal原力灵机联合全球最大AI开源平台之一Hugging Face共同发起了RoboChallenge项目——全球首个大规模、多任务的真实物理机器人基准评测平台。

RoboChallenge通过让真实机器人执行许多种截然不同的任务,考验了包括但不限于软体物体处理、双臂协同以及多阶段连续操作等难点,充分考验算法对现实世界的理解与泛化能力,为研究者提供了一个严谨、公正的现实环境测评方式,旨在弥合模拟测试与现实部署之间的差距。

研发者即使没有实体机器人,也可以通过远程接入平台,在真实机械上验证算法,为具身智能的研究和应用提供坚实的试金石。

「远程机器人」方法
本地模型远程操控真机

传统的机器人竞赛或评测通常要求参赛者提交模型代码,在主办方环境中运行,这往往导致环境兼容性问题、推理时延以及安全控制隐患。

RoboChallenge创新采用了「远程机器人」架构:用户无需提交模型或Docker镜像,模型始终在用户本地运行,通过开放API远程控制平台上的真实机器人。

这种设计克服了跨环境部署的种种难题——不同计算架构和软件栈的兼容性不再是障碍,用户可在本地熟悉的环境实时推理,同时平台通过HTTP异步队列接收动作指令,保证机器人操作的安全可控。

研发者通过API请求远程获取传感器观测(RGB-D相机、机器人状态等),再将本地模型计算得到的动作序列发送到云端动作队列,由真实机器人依序执行。整个过程无需公开用户模型或提供公网服务接口,适配各种网络环境。

这一远程评测方法有效解决了模型部署难题,保障了评测过程的灵活性与安全性,让更多研究者可以零门槛参与真机测试。

30项真实任务基准集Table30
丰富多样,远超业界

就已公开的真机评测而言,评测任务的数量通常为3-5个,且多为基础性操作,例如某国际比赛中只要求机器人推动或抬起一个立方体。

相比之下,RoboChallenge推出了首个涵盖30项真实任务的基准测试集——Table30,规模和丰富度全球领先。

这30个桌面任务经过精心设计,场景多样,难度梯度分明,涵盖了软体物体处理、双臂协同以及多阶段连续操作等挑战。

例如,任务中机器人可能需要处理毛巾、纸张等柔性物品;执行装配、开关操作时必须双臂同时配合;还有许多任务需要按顺序完成多个步骤,属于长程多阶段流程。

这些任务远超以往基准的复杂度和覆盖面,充分考验算法对现实世界的理解与泛化能力。

据RoboChallenge技术论文介绍,Table30围绕固定桌面场景,但强调多种问题类型,对视觉、语言理解、运动规划等各方面能力都提出考验。

如此大规模且丰富的真实任务集合,使RoboChallenge真正成为全面检验具身智能算法的「试炼场」。

多机型机器人支持
UR5、Franka等广泛硬件接入

为了测试算法的泛化能力,RoboChallenge并非局限于单一机器人硬件,而是通过接入四类主流机器人平台来帮助开发者验证算法能力。包括常见的6自由度工业机械臂UR5(配备Robotiq手爪)和7自由度Franka Emika Panda机械臂(更换了Robotiq抓手),以及双臂移动平台「Cobot Magic Aloha」(安装在移动底盘上的两个6自由度机械臂,模拟Google ALOHA系统),还有国产的新型6自由度机械臂ARX-5。

这些硬件覆盖了从单臂到双臂、固定基座到移动平台的多种形态,都是学术界和工业界常用的机器人型号。

同时,平台为每台机器人配置了多个RealSense深度摄像头等传感器,提供丰富的感知信息。

通过同时支持多机器人环境,RoboChallenge使算法可以在不同机型和场景下反复测试,观察模型在跨硬件、跨场景条件下的表现。

这种广泛的硬件覆盖为验证算法的通用性和鲁棒性奠定了基础,也方便研究者针对不同机器人定制和评估其算法。

科学严谨的评测机制
成功率+进度评分双指标

在评测指标上,RoboChallenge设计了科学且严谨的双重量化标准,确保结果的稳定性与可比性。

首先是任务成功率(Success Rate, SR):每项任务平台会重复进行多次测试(如10次),统计模型完整完成任务的比例作为成功率。

然而,仅有成功/失败无法细致区分模型优劣,为此平台引入了任务进度评分(Progress Score)机制。

每个任务被划分为若干关键阶段,每完成一阶段即累加对应的进度分值,总分满分为10。

如果模型在最后一步失败,即使成功率为0,也能通过先前阶段的得分反映其部分能力;

反之即使任务成功,若多次反复尝试(比如抓取多次失败后才成功),进度分会因多次重试扣分而降低,从而惩罚不稳定的策略。

例如在「开抽屉」任务中,机器人臂移动到抽屉附近、抓稳把手、拉开抽屉、返回原位等各阶段都有分值,某阶段多次尝试则扣分,确保评分细粒度且客观公正。

最终每个任务同时给出成功率和进度得分两项指标,用以全面衡量算法的表现。

双指标评测不仅能刻画算法在不同难度任务上的局部表现,还通过多次重复试验保证结果具有统计稳定性,不同算法的排名对比也更加公平可信。

开放数据与代码
千余演示助力公平可复现

开放性是RoboChallenge平台的重要原则。

为了降低入门门槛、提升评测的公平性,平台为每项任务提供了丰富的示范数据和基准代码支持。

一方面,官方公开了每个任务的示范轨迹数据,总计超过千条(每个任务最多提供1000个示范记录)。

研究者可以利用这些真实机器人示范数据对模型进行微调学习,然后再提交评测,确保模型在同等信息基础上进行对比。

这种做法类似于计算机视觉领域公布训练数据集以供算法微调,有助于公平比较各算法效果。

另一方面,平台还开放了评测所需的接口和参考代码,包括如何调用远程API、获取传感器信息、格式化动作指令等,使参赛者能够方便地接入自己的算法。

所有测试过程中的机器人执行轨迹和录像也会公布在平台网站上,进一步增强结果的透明度和可复现性。

通过开放数据与代码,RoboChallenge希望构建一个开放协作的研究生态,促使不同团队的算法在相同起点上竞争,推动具身智能算法的快速进步。

初期成果
验证热门算法表现

RoboChallenge平台自启动以来,已有参与者加入测试,为平台的权威性和价值提供了有力验证。

根据官方披露的信息,目前已有多种不同的算法模型在Table30基准上完成了测评。

其中2种是由官方团队基于当下热门的「π系列」模型(Physical Intelligence系列)实现,包括开源算法π0及其增强版π0.5。

通过对主流开源VLA模型算法进行测试,结果显示最新发布的π0.5相较其他模型取得显著优势,但也无法在所有任务上都取得较高的成功率。

由此可见,RoboChallenge基准测试可以作为迈向通用机器人技术的必要性检验。

此外,评测还涵盖了微软开源的CogACT(一种将认知与动作结合的VLA模型)和OpenVLA等其他模型。

这些算法代表了当前具身智能领域的前沿探索,在RoboChallenge统一真实环境下同台竞技,取得了明显差异化的结果。

π0.5模型在大部分任务上取得了领先的成功率和进度评分,显示出更强的综合实力。

参与者不仅为平台积累了初步基准数据,也证明了RoboChallenge评测体系的可用性和公正性。

随着平台的推广,预计将有更多产学研团队提交他们的最新算法,在RoboChallenge上验证效果、发现不足,形成良性的研究循环。

共促具身智能的现实落地

作为全球首创的大规模真机评测平台,RoboChallenge为具身智能研究搭建了一个开放、严谨的现实试验场。

它打破了硬件壁垒和环境限制,让全球的研究人员和企业都能便捷地在真实机器人上验证算法,共享标准化的评测基准。

这种开放协作的模式,有望加速具身智能算法从实验室走向现实世界:

一方面,通过持续的公开评测和数据共享,促使算法不断迭代进步;

另一方面,产业界也可以参考评测结果挑选成熟方案,加快技术落地应用。

全球对机器人与AI感兴趣的研究者和从业者皆可加入RoboChallenge,共同挑战这些真实世界的复杂任务。

在这一开创性的评测平台上所有人集思广益、同台竞逐,推动具身智能迈向新的高度,早日让智能机器人真正走入现实生活。

据悉,后续RoboChallenge将通过举办挑战赛、研讨会及数据共享,积极推动社区共建,鼓励研究者参与任务设计与优化,平台还提供多维度细分排行榜,支持算法性能的深度分析,共同推进具身智能核心问题的解决。

Join RoboChallenge. This Is Your Opportunity To Shine!

参考资料:
官网:https://robochallenge.ai
论文:https://robochallenge.ai/robochallenge_techreport.pdf
GitHub:https://github.com/RoboChallenge/RoboChallengeInference
Hugging Face:https://huggingface.co/RoboChallengeAI

RoboChallenge全球首发同时还有两场相关主题的重磅直播,欢迎预约观看!

附录:真机评测回放界面详解


这是RoboChallenge的一次真机评测回放界面(基于app.rerun.io的Rerun Viewer)。

同一时间轴上同步显示了多路视频与机器人传感/控制数据:关节角、夹爪开合度等。

它让研究者可以像「示波器+监控录像」那样,逐帧回看模型在真实机器人上的行为与决策。

界面结构与含义

① 左栏:数据树(Recordings/Streams)

  • Recordings(Local):当前打开的录制文件(一次评测/回放)。

  • 分组如 videos_1/videos_2/videos_3:多路相机视频流(例如俯视、腕部、侧视)。

  • arm/cur_joint/joint_1…joint_6:六个关节的时间序列数据。

  • arm_gripper:夹爪张开程度随时间变化的曲线。

  • 作用:像文件夹一样勾选/隐藏某个数据流,或快速跳转定位。

② 中上:视频与多窗口画布(Blueprint/Containers)

  • 你看到三张小缩略图,代表三个视频流的当前帧(对应 videos_1/2/3)。

  • 作用:对照观察同一时刻,不同视角下的操作细节(例如抓取前的姿态、碰撞、遮挡等)。

③ 中右:数据曲线面板(arm/arm_gripper)

  • 上图「arm」:六条曲线分别对应 joint_1 … joint_6,纵轴为角度(弧度),横轴为时间。

  • 下图「arm_gripper」:紫色曲线表示夹爪开合度,变化阶梯清晰可见(开、合、再次开合……)。

  • 作用:将动作策略可视化——比如判断是否因为夹爪未充分张开导致抓取失败、或某个关节出现异常振荡。

④ 右栏:所选实体的元信息(Selection/Data)

  • 当前选择的是 videos_1

    • 编码解码器:H.264

    • 分辨率:640×480

    • 比特深度:8,下采样:4:2:0

    • 帧数:1109

    • 正在查看的解码帧编号:#1108

  • 作用:核对数据质量与一致性(帧率、分辨率、编码),排查回放/同步问题。

⑤ 底部:统一时间轴(Timeline)

  • 时间戳(UTC)示例:2025-09-20 05:11:02…

  • 每条「灰条」代表一个数据流的时间覆盖区间;黑色竖线为当前播放指针。

  • 作用:逐帧对齐视频与传感曲线;支持回放/暂停/慢放,定位到关键事件(抓取、放置、开关等)。

如何用它做严谨分析
  • 定位失败原因:在视频里看到抓取滑脱,同时在「arm_gripper」曲线发现夹爪开度未达阈值;再看关节曲线是否出现抖动/超调,判断是策略问题还是控制/摩擦导致。

  • 验证「进度评分」阶段:对照任务脚本(如「到位→对准→抓取→撤回」),在时间轴上标注关键帧,确认每一步是否完成及重试次数,为评分提供证据。

  • 多视角数据交叉印证:当俯视图被遮挡(例如手臂自遮挡),可切到腕部/侧视视频,避免单视角误判。

  • 模型对时与延迟测量:通过观察「感知帧到动作曲线变化」的时间差,估算推理/通信延迟,优化远程推理的节奏(比如动作分块下发)。

这套UI的价值
  • 复盘、可追责、可量化:同一时间线上联动「看得见」(视频)与「量得出」(曲线)的证据链,支撑公平评测与问题诊断。

  • 跨团队共享语境:所有参与者能基于同一回放界面讨论模型行为,减少「口述不一致」。

  • 工程与学术双友好:既能做工程调参(时序、编码、传感质量),也能做学术分析(策略稳定性、阶段完成度、重试惩罚等)。

上手小Tips
  • 在左栏切换/勾选数据流,避免信息过载。

  • 用时间轴放大窗口对准某一次抓取瞬间,配合右侧元数据核对帧号。

  • 发生异常时,先看夹爪曲线与末端关节是否同步异常;再回看多视角视频确认是否有遮挡/打滑。


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652634917&amp;idx=1&amp;sn=f12b0ae3c2b2df794363020ce2ca0ac3&amp;chksm=f0657bffb332f50a1bbf5dde801bb85eb5387b21da30a734a379c981a2d1142756710668727b&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/iRiv789ZIr&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们