动态列表

  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策

具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题



  新智元报道  

编辑:定慧
【新智元导读】中国具身智能「全明星日」现场齐聚30+顶流大佬,现场却先吵翻了天!具身智能架构要不要推倒重来?真机还是仿真谁当C位?硬件、甲方、数据飞轮轮番上场——这场4小时真心话局,或许决定机器人能不能真正走进你家门。

2025年,注定是具身智能的「爆发之年」。

如果说大模型是数字世界的「大脑」,那么具身智能就是让AI拥有「身体」,真正走进物理世界。

昨天下午,北京鼎好大厦,智源具身2025 OpenDay现场,空气燥热得仿佛盛夏。

30多位明星具身公司的CEO/CTO、联创齐聚现场,这哪里是智源开放日,分明是中国具身智能产业的「全明星日」

智源研究院院长王仲远站在台前,身后是悟界·Emu3.5多模态世界大模型和RoboBrain2.0具身大脑的最新技术演进。

但他此刻的角色,更像是一位超级链接者,将产、学、研、用的顶流们汇聚于此,试图在喧嚣中厘清行业的真实脉络。

从「具身Transformer」是否存在,到「数据飞轮」靠仿真还是真机,再到「甲方爸爸」的灵魂拷问。

大佬们不再避讳分歧,而是展开了直击灵魂的对话与互怼。

三场圆桌,四轮激辩,不仅拨开了行业的迷雾,也为具身智能的未来厘清了方向。

激辩一

具身智能需要自己的「Transformer」吗?

在「BAAI 模型会客厅」环节,气氛从一开始就充满了火药味。

主持人抛出了一个直击灵魂的问题:具身智能会收敛到由某一个统一架构主导吗?我们需要具身版的Transformer吗?

这是一个关于「大一统」的赌注。

招商局集团AI首席科学家张家兴率先开炮,给出了一个极具颠覆性的观点:「我们不能沿着过去三年大模型发展的结构(LLM/VLM)走下去。」

他认为,现在的VLA(视觉-语言-动作)架构在视觉和动作之间夹杂了语言,这不符合人类操作的本质

「人在开车时可以聊天,说明视觉和动作是直连的。具身智能需要一个Action First(动作优先)的架构,而不是Language First。」

清华大学助理教授、星海图联合创始人赵行对此表示赞同。他描绘了一个理想的架构图景:一个Large Action Model(大动作模型),它依赖于视觉,最后才加入语言。

「更重要的是,它必须是一个闭环模型。大语言模型是一问一答的开环,而具身智能是动作-反馈-调整的闭环。」

然而,北京大学助理教授、银河通用创始人及首席技术官王鹤则从现实角度泼了一盆冷水。

他指出,虽然Transformer架构在吞吐多模态数据上表现出色,但在动作输出上,行业尚未找到收敛的路径。

「我们今天的数据远远不够。地球上目前可能只有1000家头部厂商,每家有1000个人形机器人「居民」,这样稀缺的数量不足以撑起探索出一个Action First的架构。」

智源研究院院长王仲远则站在了终局思维的高度。

他坚信终极状态一定会有相对统一的架构,这也是智源布局Emu系列多模态世界模型的原因。

「但这种大一统模型的出现,可能需要具身智能互联网的出现——即当数以千万计的机器人进入真实场景,累积了海量数据之后。」

结论:现在的VLA架构可能只是过渡态,行业正在呼唤一种剥离语言中心主义、以动作为核心的全新架构。但在数据爆发之前,大家依然只能「戴着镣铐起舞」。

激辩二

数据飞轮,信「仿真」还是信「真机」?

如果说架构是骨架,数据就是血液。

在数据获取的路径上,嘉宾们分成了鲜明的两派,互不相让。

「真实派」以星海图赵行智元机器人罗剑岚为代表。

赵行强调「In scaling law we trust」,但他眼中的Scaling必须基于真实世界的数据采集,真实、数量和多样性。「我们不会仅仅在数采场里采,更多要到真实场景里去。」

罗剑岚则补充道,未来的数据飞轮必须通过机器人自主产生,「不仅仅靠遥操,而是机器人与环境交互产生数据,形成正反馈。」

「仿真派」的声音同样强劲。

加速进化创始人&CEO程昊坦言:「我们现在用仿真数据多一些,因为快。」他认为这是一个螺旋上升的过程,落地遇到Corner Case搞不定时,必须大量上仿真数据。

「很多底层控制,如足式行走、跳舞,全部是通过仿真习得的。」王鹤直言:在真实世界做强化学习太难了,你甚至没法遥操一个灵巧手去感知它到底扎没扎到。」

但他同时指出:「仿真不是为了否定真实世界,而是提供一个Base Controller(基础控制器),让我们有能力在真实世界把数据飞轮真正转起来。」

智源研究院则提供了一条「第三条道路」

王仲远提出,人类的学习是从观察世界(视频)开始,再到互动(真机)。

因此,智源坚持从海量长视频数据中做基座模型学习(Emu3.5的思路),再结合真机数据和强化学习进行微调。

共识达成:没有一种数据能包打天下。视频数据提供通识,仿真数据提供基础运动能力,而稀缺的真机数据则是通向物理AGI的「金门票」。

激辩三

硬件是瓶颈吗?谁在定义谁?谁在限制谁?

当视线转向「BAAI硬件会客厅」,话题变得更加务实。

2025年被嘉宾们形容为「虹吸」、「涌现」和「量产」的一年。

智元机器人合伙人、具身业务部总裁姚卯青将硬件的瓶颈分为两类:线性瓶颈非线性瓶颈

「关节发热、扭矩密度低、电池续航,这些是线性瓶颈,每年都在进步;但软件和大模型的泛化能力,是非线性瓶颈,你不知道突破点在哪一天。」

他坦承,虽然算法在爆发,但从第一性原理看,硬件距离人类的灵巧度和可靠性还差得远,「硬件依然是瓶颈。」

因时机器人创始人&CEO蔡颖鹏作为关键硬件的代表,指出了物理世界的残酷性:「软件可以迭代,但硬件有物理极限。一旦涉及到底层材料和底层物理原理,突破非常难。」

那么,究竟是模型定义硬件,还是硬件定义模型

在这个问题上,全场达成了一种微妙的默契:都不是,是场景在定义一切

原力灵机联合创始人&CEO唐文斌一针见血:「我不信完全统一的构型能解决所有问题。只有场景才定义了硬件形态」他呼吁行业回归价值闭环,「不要为了人形而人形」。

北京人形机器人创新中心CTO唐剑则补充了一个生动的细节:「以前是本体团队做好扔给运控,运控调好扔给算法。现在必须双向奔赴。软件团队要告诉硬件,不是越轻越好,上下肢比例更重要。」

激辩四

从Demo到落地,还要跨过几个坑?

最后的「BAAI产业会客厅」是整场活动最「接地气」也最「扎心」的环节。

尽管呼声震天,真正的「杀手级应用」尚未出现。是在工厂里拧螺丝?还是进家庭叠衣服?行业在「伪需求」和「真场景」之间艰难摸索。

来自能源、通信、制造一线的「甲方爸爸」们,给热火朝天的具身智能泼了一盆冷水,也指了一条明路。

「客户不为泛化买单,只为解决问题买单。」

优必选工业&优奇联创CEO杨继峰的话掷地有声。

他指出,客户不会因为你用了大模型就多付钱,他们只关心效率。目前的痛点在于,具身智能尚未达到工业体系要求的「拐点」,导致每个项目都是定制化的「0或1」,无法形成规模效应。

中国联通具身智能首席专家李凯总结了甲方愿意买单的「三高」场景:高复杂度、高危险性、高成本

他分享了一个失败案例:在轴承工厂,AI检出率如果达不到98%,就无法替代老工人;如果只是降低了老工人的劳动强度而不能替代人力,那对企业来说就是零价值。

「全生命周期的运营才是关键,有没有人考虑过机器人的IP防护等级?有没有人考虑过连续无故障工作时间(MTBF)?」

海信杭研总监张名举则用一组数据揭示了家庭场景的艰难:「中国人每人每天平均有118分钟家务。」

他认为,机器人进家庭不能指望「全能管家」,而应是「特种兵+生态」。「比如洗衣服,机器人负责拿,洗衣机负责洗,这需要家电与机器人的配合,而不是让机器人把所有事都干了。」

软通天擎创始人黄鹏提出了「场景再造」的概念。他认为,现在的环境是为人设计的,机器人很难直接适应。必须对场景进行标准化改造,让数据结构化,模型才能跑起来。

智源研究院:做具身时代的「送水人」

在长达三个小时的激辩中,我们看到了焦虑,更看到了希望。

如果说去年的具身智能还在讨论「是什么」,今年的重点已经变成了「怎么做」。

在这场集体突围中,智源研究院的角色耐人寻味。

它没有亲自下场做本体或产品,而是默默地开源了RoboBrain具身大脑Emu3.5多模态世界大模型RoboCOIN数据集以及真机评测平台

  • Emu3.5:用海量长视频数据训练,打造世界模型的基座模型,解决数据饥渴。
  • RoboBrain 和 RoboOS:提供跨异构本体的大脑和小脑,解决「不通用」的痛点。
  • RoboCOIN:全球本体数量最多、标注精细的真机数据集,打破数据孤岛。
  • RoboChallenge:联合Hugging Face等建立评测标准,解决「自卖自夸」的乱象。

面对行业的碎片化,智源研究院选择了一条难而正确的路:做公共基础设施,做技术路线的探路者。

正如智源研究院院长王仲远在开场时所说:「我们就是希望,为行业铺设基石。

当所有人都想做淘金者时,智源选择做那个卖铲子、修路、通水电的人。

这场OpenDay不仅展示了技术,更展示了一种生态的号召力——将学术界的象牙塔、产业界的练兵场和资本市场的加速器连接在一起。

2025年,也是具身智能去伪存真的关键之年,正如会场内掌声所证明的:

当铺路人足够坚定,同行者足够众多,种子就已经在这一刻埋下。

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652647690&amp;idx=1&amp;sn=d13130f17f7d7cad14c95b1f3d3fb6cb&amp;chksm=f0bc40387bbef974b9a39e1a94183feec7f59c6abfa00792e48d5271a8a02d707781e7967730&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/7L6FCpg2ws&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们