动态列表

  • 亚马逊CEO全员信曝光,硅谷AI裁员潮已至!年薪50万湾区HR被算法淘汰
  • 港科广等发布首个医学世界模型!精准模拟肿瘤演化,规划治疗方案
  • 美7000万人或被取代,Agent光速卷入职场!北大校友、杨笛一新作
  • 谢赛宁团队新基准让LLM集体自闭,DeepSeek R1、Gemini 2.5 Pro都是零分
  • 清华SageAttention3,FP4量化5倍加速!且首次支持8比特训练
  • ICML 2025 | 分子之心、港理工首创AI酶设计新方法,突破自然进化极限
  • 冠军队独享200万,进决赛就有直通offer,腾讯广告算法大赛报名开启
  • 统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
  • 信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
  • 10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!
  • 香农极限转化为计算优势,射频光子深度学习处理器MAFT-ONN比传统方法快数百倍
  • 成功率提高3倍,David Baker等通过可设计性偏好优化蛋白质序列设计
  • 2025 清华大学 x 字节跳动程序设计竞赛训练营报名启动
  • MiniMax-M1 登场,MiniMax 再次证明自己是一家模型驱动的 AI 公司
  • 刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
  • 通向世界模型关键一步:EX-4D来了,实现单目视频到自由视角生成
  • 马斯克:没嗑药,公布药检自证清白;京东:一线城市骑手月入 1万 3;谷歌广告讽刺 iOS 26 跟风安卓|极客早知道
  • 沉迷贪吃蛇,7B小模型竟变身「数学天才」!几何推理碾压GPT-4o
  • 形式化证明迈向多模态,MLLM正确率仅4%!港科大等推出全新基准
  • 谷歌Veo 3魔性切水果刷屏全网!逼真视频狂吸10万粉,全体网友颅内高潮
  • 3D高斯泼溅,可输入视图量高达500!推理速度提升3倍,内存少80%
  • AI子弹已上膛!OpenAI斩获美国防部2亿美元大单,密谋向微软「开枪」
  • 逐个token太慢!大模型原生并行出token,CMU、英伟达新作Multiverse
  • 想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了
  • 23 万的小鹏G7,「硬刚」Model Y和小米YU7
  • 豆包电脑版上线AI播客功能,支持一键生成播客
  • 准确率是DeepSeek-R1两倍以上,前谷歌CEO押注的初创公司开源240亿参数科学推理模型
  • Nature子刊 | 显著提升生物医学中蛋白质递送能力,生成式AI扩展线粒体靶向工具包
  • 读博士,去哪找那么多创新点?水水得了...
  • ICML 2025 | 北大KA-Prompt首创提示知识对齐范式,跨域推理不再“鸡同鸭讲”
  • 欧洲团队开源「地球AI大脑」!EarthMind突破遥感多模态统一理解壁垒
  • 北京内推 | 联想研究院人工智能实验室招聘多模态算法实习生
  • 首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
  • 从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
  • 首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
  • 同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
  • 突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
  • 从「万元咨询」到夸克免费 AI:一场高考志愿的「信息平权」之战
  • CVPR 2025 | 零开销缓解物体幻觉:基于零空间投影的多模态大模型物体幻觉消除方法
  • 刚刚,LMArena最新模型榜单出炉!DeepSeek-R1网页编程能力赶超了Claude Opus 4
  • 搜索智能体RAG落地不佳?UIUC开源s3,仅需2.4k样本,训练快效果好
  • 华为发「天才少年」课题,涉 AI、汽车;雷军:小米 YU7 提前发布;川普推「MAGA」土豪金手机,3585 元起
  • CVPR史上首次!中国车厂主讲AI大模型,自动驾驶也玩Scaling Law?
  • Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
  • 刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!
  • 亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
  • 特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
  • 目标检测之“看见角度”:YOLO11 与定向边界框(OBB)检测
  • 大力出奇迹失灵了?ModelSwitch跳出采样黑洞,改写大模型推理范式
  • ACL 2025 | 数据多不如风格齐?SCAR精选<1%样本,指令微调效果飙升
  • 从“比像素”到“懂语义”!Video-Bench实现视频质量精准打分,突破73%人类认同率
  • 北京内推 | 小米汽车自动驾驶与机器人部招聘感知算法实习生
  • 「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
  • SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
  • Nature子刊,北大团队使用多视图GNN进行基于生态位的细胞间通信研究
  • 九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+RL技术趋势
  • AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
  • 初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
  • 高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
  • 如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
  • Nature子刊,中国科大团队提出迁移学习指导的圆偏振磷光材料设计
  • 复旦团队让线粒体自噬「可视化」,AI-FM揪出抗阿尔茨海默病潜力药
  • 通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT
  • 大模型能否读懂真实病历?哈佛医学院发布BRIDGE大规模多语言评测基准
  • Muon作者仅用一篇博客,就被OpenAI看中了
  • ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
  • 罗永浩数字人开播,GMV超 5500 万;泡泡玛特首家珠宝店正式开门;特斯拉 Robotaxi 真车曝光
  • 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
  • 《人类简史》作者怒怼硅谷:智能≠真理,AI正在走偏!
  • 12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
  • 硅谷精英集体参军!代号「201分队」,Meta、OpenAI首席技术官入伍
  • 刚获得一亿美元融资的地瓜机器人,挑战让智能机器人变得更便宜
  • 放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
  • 机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
  • 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
  • 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
  • AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
  • CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
  • 首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
  • 特朗普或推出以其名字命名的手机品牌;百度启动最大规模 AI 人才招聘;《鱿鱼游戏》第三季预告发布|极客早知道
  • 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
  • 模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
  • 谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形
  • 和AI聊太深?他们离婚、跳楼、自杀了!ChatGPT精神病正在爆发
  • LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
  • 多智能体在「燃烧」Token!Anthropic公开发现的一切
  • 苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
  • 单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
  • ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
  • 消息称腾讯未考虑收购 Nexon;追觅否认「断指计划」;李国庆与俞渝就财产分割达成最终和解
  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • ICML 2025 | Agentic时代唤醒NAS"第二春"!智能体超网动态组队,推理成本暴降55%
  • Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系
  • 视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
  • 博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字

CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准

图片

本工作于 2024 年 11 月完成,目前已经被 CVPR 2025 接收并评选为 Highlight,第一作者为龙宇星,导师为北京大学董豪老师。课题组致力于研究统一的物体表征操作研究,以实现具有可解释性和泛化能力的物体操作策略。

自 19 世纪末爱迪生发明电灯以来,电器的发展和革新不断提升人类的生活水平。如今,电器已经走进千家万户,成为我们的得力助手,与我们的生活密不可分。赋予机器人使用家电的能力具有重要的学术价值和广阔的应用前景。

目前在机器人操作领域,一般物体(如刚体和铰接物体)的操作研究已经取得一定进展,但是现有操作策略主要执行单步原子操作。对于设备(如家电)而言,必须按照正确顺序和方式进行多步操作,才能正确完成高层次任务。因此,参照说明书进行长程操作规划对于家电操作而言十分必要。

然而,受限于以下三大挑战,基于说明书的长程家电操作探索几乎处于空白状态:

  • 缺乏研究可用的家电说明书和配套数字资产:互联网上的家用电器说明书受到公司的版权保护,难以用于学术研究。此外,这些真实说明书没有对应的家电资产模型,无法满足仿真评测需求。

  • 缺乏洞察家电操作问题的评测任务:现有的家电操作评测任务仍然主要集中在对于原子动作能力的评估,未充分考虑基于说明书的长程家电操作中存在的识别,规划和执行等复杂问题。

  • 缺乏基于说明书的操作规划模型:当前的机器人家电操作模型主要实现单一的原子动作,尚未具备结合说明书内容和高层任务指令进行长程操作规划的能力。

为应对上述挑战,北京大学联合智元机器人团队提出了全新的家用电器操作评测基准 CheckManual,这是首个专为研究基于说明书的家电操作而设计的评测框架。

图片
  • 论文标题:CheckManual: A New Challenge and Benchmark for Manual-based Appliance Manipulation

  • 论文链接:http://arxiv.org/abs/2506.09343

  • 项目主页:https://sites.google.com/view/checkmanual

  • GitHub 链接:https://github.com/LYX0501/CheckManual

CheckManual 具有以下三个创新性优势:

(1)图片和文字内容拟真的家电说明书和多样的数字资产

通过广泛调研真实说明书图文内容和格式,构造超过 1100 份拟真的家用电器说明书。说明书中含有部位介绍图,操作说明图,任务表格等丰富内容,涵盖 11 类共计 182 种生活中常见家电的数字资产。

(2)契合实际要求的一系列全新评测任务

针对基于说明书的家电操作任务需求,设计三种不同导向的评测任务,全方位评测模型在说明书理解,操作规划,以及动作执行上的能力。

(3)首个基于说明书的操作规划模型 ManualPlan

提出第一个基于说明书的操作规划模型,能够理解任务指令中关键信息,解析说明书内容,并规划部件层次的具体操作。

CheckManual 介绍

(一)家电说明书自动化生成和人工校验

图片

      Figure 1. CheckManual 说明书生成管线

(1)准备阶段(Figure 1 左):首先从互联网收集 110 份来自不同国家和地区的电器说明书,分析发现说明书中功能性部件通常通过点 - 线格式标注,操作方法导则通过纯文本、多模态图示(包括部件放大图和部位移动示意图)等多种方式进行介绍。此外,从 PartNet-Mobility 数据集筛选总共包括 11 类共计 182 个家电 CAD 模型,包括洗衣机,冰箱,微波炉等常见家用电器,用于说明书生成。

(2)说明书素材创造阶段(Figure 1 中):根据规则自动生成关于家用电器的部位点 - 线注释图,并通过多模态大模型根据家电的类别和外观特点编写每个部位的功能和状态类型。在此基础上,进一步采用大语言模型编写家用电器支持的操作任务和详细的引导步骤。为了保证大模型生成内容正确合理,对所有生成结果都进行仔细的人工检验,并对不合理的部分进行重编写。此外,自动化生成说明书封面,操作方法说明,警告标识等内容作为说明书的图片内容。

(3)说明书生成阶段(Figure 1 右):所有先前阶段生成的文字内容和图片链接都通过大语言模型整合成格式多样的 LaTex 代码,这些代码进一步被编译成 PDF 格式的家电说明书。在 Figure 2 中展示来自 CheckManual 数据集的家电说明书示例。

根据统计分析,CheckManual 数据集中共包含 1107 份不同内容的说明书,涵盖 2211 个不同的可操作部位,1464 个关于家用电器的操作任务。该数据规模和多样性可以有效支撑基于说明书的家用电器操作任务评测需求。

图片
图片
图片

      Figure 2. 来自 CheckManual 数据集的家电说明书示例

(二)CheckManual 仿真环境评测任务

基于 CheckManual 数据集,团队提出一系列针对基于说明书的家用电器操作规划和执行的评测任务,它们分别是说明书 - CAD 模型 - 家电对齐的操作规划任务,基于说明书和 CAD 模型的操作执行任务以及完全基于说明书的操作执行任务。这些任务的可用输入和预测目标如 Table 1 所示。关于任务详细定义和评测指标介绍请参考论文。

图片

      Table 1. CheckManual 数据集评测任务的可用输入和预测目标

(三)基于说明书的家电操作规划模型 ManualPlan 和动作执行

图片

      Figure 3. ManualPlan 家电操作规划模型

针对基于说明书的家用电器操作任务,团队设计 ManualPlan 模型。该模型首先采用 OCR 和多模态大模型对说明书文字内容和视觉内容进行提取和解析,然后 ManualPlan 根据任务指令规划出详细的操作步骤。为了便于后续操作执行,模型进一步根据说明书示意图,将电器部件名称和相机观测视野中的部件对齐。由此模型可以预测每个部件的操作顺序和操作方式。

ManualPlan 的预测结果既可以控制基于家电 CAD 模型的操作原子动作,也可以控制如 VoxPoser 这样的开放词汇操作模型来实现与家用电器的真实交互,从而完成家用电器操作任务。

图片

      Table 2. CheckManual 数据集评测结果

团队分别在 CheckManual 数据集上评测 ManualPlan 的操作规划能力,以及基于原子技能和开放词汇操作模型 VoxPoser 的家用电器操作执行能力。Tabel 2 中 Track 1 的评测结果按照「对齐成功率 / 任务规划成功率」呈现,Track 2 和 3 的结果按照「完成率 / 成功率」呈现。

从实验结果中可以观察到,说明书有效提升操作规划的成功率,但长程家电操作对现有 - 原子动作和开放词汇操作模型而言仍然十分有挑战性。长程操作中的错误累积使得家用电器操作成功率仍然有巨大的提升空间,值得未来更加深入的研究。

以下展示 ManualPlan 在真实世界中操控家电完成长程任务的效果。

图片

      Figure 4. ManualPlan 操作电饭煲「煮小米粥」

图片

      Figure 5. ManualPlan 控制微波炉「加热牛排」

]]>

联系我们