动态列表

  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 导师放养真的会毁掉一个人……
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单
  • UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
  • Hinton最新警告:杀手机器人或将带来更多战争,最大担忧是AI接管人类
  • AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」
  • 奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡
  • 出货 1000 万台硬件后,我们和「凯叔讲故事」聊了聊「AI玩具」的核心
  • 他不懂代码,却用 AI 黑掉 17 家医院和机构,Vibe Hacking 让全世界变成缅北
  • 刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
  • Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
  • ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
  • ICLR 2025|KGExplainer:让新知识的发现“有理可循”
  • 入局AI4S?CPO宣布「OpenAI for Science」计划:打造下一代科学工具
  • 2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
  • 从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
  • 宇树科技官宣:年内提交IPO,或将冲刺科创板
  • 其实,扩散语言模型在最终解码之前很久,就已确定最终答案
  • 语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
  • 北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
  • 原子思维上线!Agentic Deep Research再进化:推理更深、答案更准
  • 【9月9日直播】大模型复杂推理技术:如何重塑AI推理逻辑
  • Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力
  • USO:鱼与熊掌亦可兼得,字节跳动提出统一框架,完美融合主体与风格生成
  • 刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
  • IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作
  • iPhone 17定价曝光,仅Pro涨价;李斌:4季度实现月卖5万台车;COD「使命召唤」大电影官宣|极客早知道

当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会



  新智元报道  

编辑:编辑部
【新智元导读】AGI从未如此逼近——新天终启,万象智生。在新智元十年峰会上,NVIDIA副总裁分享了下一个十年的AI浪潮:新的数据基础设施、新的算力层次、新的千亿级市场,物理AI正在铺开。
当全世界的目光还聚焦在大语言模型和AI智能体的竞赛时,英伟达已经将视线投向了更宏大战场——物理世界

我们所熟知的人工智能,至今更多存在于数字世界中:生成文字、图片、代码,进行搜索和推荐。

然而,AI的「终极形态」,必然要走向现实,与真实环境互动!

在「新智元十周年峰会」上,NVIDIA工程和解决方案副总裁赖俊杰,向外界系统地揭示了公司的下一个十年战略核心:物理AI (Physical AI)

这不仅是继「生成式AI」和「智能体AI」之后的下一波浪潮,更是一个旨在彻底解放人类生产力,重塑未来生活方式的宏伟蓝图。

这,是一个要把真实地球装进GPU的时代!

英伟达为什么在今天把筹码压向现实世界?

线索藏在九年前的一次英伟达和新智元的对话里。

黄仁勋(右)接受新智元创始人杨静采访并合影

当时,黄仁勋就看到了AI对GPU的强劲需求,并对AI做出判断:具有常识的机器会很快出现。

但对于类似于人类的通用的人工智能,是否会在10—15年内实现,他仍不确定。

今年7月,黄仁勋再访北京,接受了国内外媒体采访。在现场,新智元有幸采访了黄仁勋。这次,黄仁勋改变了9年前对AGI的看法:

根据我所理解的AGI定义,目前已有很多很好的想法,可能会在不远的将来引向通用人工智能。

2025年,黄仁勋和新智元创始人杨静女士合影(上方左);在新智元创始人杨静女士背后,黄仁勋在签名(上方右);黄仁勋签名(下方)

这也是新智元十周年峰会参会嘉宾的共同感受——

过去10年,是AI奇迹的10年。现在,人类前所未有地接近AGI。

AI在指数级发展,正如《2025新智元ASI前沿趋势报告》所言:

过去6年,AI智能体独立完成人类任务的时长能力,始终以约7个月翻一番的速度指数级增长。  


最新的GPT-5模型,在软件工程任务上的「50%成功率时间视域」,已达2小时17分钟。  


到2027年末,AI智能体将能独立执行需要人类耗时几天乃至数周的项目。届时,ASI的曙光将冲破云霄,一个恢弘的智能新纪元将正式开启。

今年,OpenAI已发布了三大智能体——Operator、Deep Research、Codex。

据称,DeepSeek的下一个大动作也是高阶智能体,力争年底发布相关更新

智能体让模型从会答变成会做,门槛是可靠性与工具链整合。

但英伟达的视野已经越过了智能体乃至Agentic AI,他们开始布局下一波AI浪潮——物理AI。

在「新智元十周年峰会」上,NVIDIA工程和解决方案副总裁赖俊杰分享了对AI未来的行业判断。


算力大爆发

2012年,AlexNet横空出世。

之后,深度神经网络席卷学术界工业界,深度学习引爆AI研究范式转移:

无数研究者开始下定决心,全力投入到以深度神经网络为代表的深度学习技术。

很快,许多落地了一批场景与应用:语音、视觉、图像、搜索……

2013年,赖俊杰加入英伟达。

他见证了AI史上这波浪潮,英伟达迎来新的算力需求大爆发。

之前,英伟达已经开发了CUDA,但GPU等算力主要用于科学计算、生物、化学、天体物理等等任务。

一般的客户也就买几块、几十块GPU;如果能买上几百块GPU,那就是真正意义上是大客户。

但2014年,百度一家就买下了英伟达1000块GPU。

第一次听到这个消息的时候,赖俊杰感到吃惊。

而现在,xAI旗下的数据中心Colossus已配备了20万块GPU。

只有如此的算力,才足够支持GenAI进入千家万户。

LLM迎来了爆发,带来了很多生产力工具。

今天,大家已经非常习惯于用自然语言去跟数字世界的大模型进行交互,来生成图像、视频、文本等等。

对于游戏发烧级玩家而言,可能没有想到游戏渲染新技术DLSS也得益于AI的发展。

AI改变了太多。

但到今天为止,大家接触最多的人工智能还只存在于数字世界:各种各样的图像、语音搜索、广告推荐等等,

英伟达认为,物理AI」是继Agentic AI后的下一代AI浪潮

赖俊杰重点分享了英伟达的物理AI战略构想。

AI的下一代浪潮
机遇与挑战

回到物理AI,它被视为接下来人工智能发展的重要方向。

所谓的物理AI,就是与现实的物理世界交互的AI。

物理AI意味着物理AI驱动的自主机器,可以与周遭的物理世界交互,理解真实世界,采取各种各样的行动。

不同的物理AI自主机器,大家的期望也有所不同。

比如,工业的机械臂,大家只是期望它在固定位置上,可以进行抓取和叉装这些精细的小动作。

而智能驾驶汽车,大家则希望它理解各种各样复杂的路况,并且需要掌握像转向、变道、加速、刹车等等技能。

最具挑战性的是人形机器人,我们对它的期望是

在基本所有人类涉足的复杂场景里,它都能做出各种各样复杂的动作。

物理AI要想取得成功的话,其实面临着非常大的挑战。

因为人工智能的模型和算法驱动机器,与现实的世界交互。

如果算法和模型没有经过充分验证,或者说它的安全措施不到位的话,就可能对我们周遭的物理环境,甚至是人本身产生伤害。

而要开发安全鲁棒的物理AI ,另一大挑战是数据要求更高

物理AI需要的高质量数据,以及在一些极端场景数据非常难以去采集。

极端场景稀缺——但恰是鲁棒性关键。

比如说车前突然出现了车辆或其他障碍物,类似于这样危险的数据的话还是比较稀少的。

此外,物理AI的测试与验证,成本体量非常的高,人力、物力等投入非常大。

而且物理AI需要的数据难以拓展,受到物理现实的直接制约。

比如说,现在是夏秋之交,想要测试冰雪环境下自动驾驶算法,很难甚至可以说基本不可能。

要实现安全可靠的AI,不止需要传统LLM训练需要的算力平台集群之外,或者部署平台需要的一些计算平台。

我们还需要第三类计算的基础设施。

把地球装进GPU

在第三类计算基础设施之内,实际上就是把现实的物理世界,非常逼真地还原到虚拟世界

然后,在这样的虚拟世界中,对物理AI算法进行测试、验证、仿真等等。

但为什么要在虚拟世界中做物理AI?最大的好处是什么呢?

首先,它非常的容易扩展scale。

现实测试从一台车拓展到10台车,拓展到100台车,不是特别容易,但是在数据中心里面放1台机器, 10 台机器、 100台机器、 1,000台机器,就相对容易拓展。

而且在虚拟世界中,更容易摆脱时空的限制。

比如,在虚拟世界中,夏天测试自动驾驶算法在冰雪环境下的表现就相对容易。

这就是英伟达对物理AI的核心思路想法。

为了应对物理AI各种各样的一些挑战,为了更好能够去测试、验证、训练模型,英伟达今年年初开源了Cosmos世界基础模型

开源方案覆盖预训练、后训练、微调等全流程,而且可以免费商用;目前,已下载200多万次

加速物理AI
英伟达开源三大模型

世界基础模型Cosmos包含三类模型:

Predict:未来世界状态的生成模型;  

Transfer:照片真实集的增强模型;  

Reason:针对物理世界的推理模型。

Predict模型的输入是当前的世界状态,或者说可以认为是一个起始的图像帧,用文字的方式去描述希望接下来这个世界发生的事件。

许多自主机器人配备多相机;将相机位姿与位移等信息输入后,即可生成对应输出。

比如,相机控制,在虚拟世界中告诉模型你要向左向右,向前向后做移动,就可以在虚拟世界中产生这样一些视频图像。

很多自主机器尤其像智能驾驶汽车经常有多个传感器或者多个相机,Predict模型支持同时生成六个不同位置的汽车上的相机所对应的视频。

第二类是Transfer模型。

它的输入有很多类,包括分割图,包括激光雷达的点云,或者说高清地图,还有表示各种各样物体移动信息的bounding box,把这些综合上你的指令prompt,输入Transfer模型,就可以生成下面右边的视频。

第一眼看过去,脑子里面有一个疑问,这些有什么用呢?

其中一类用法,把它当成生成式仿真工具,拿一段原始真实的视频,从中提取出它对应的世界状态。

比如说高清地图,还有bounding box,把这些信息结合prompt输入进去,你可以得到从原始视频转换来不同条件所对应的视频,比如不同光照条件下、气候条件下,甚至包括火灾情况下的新的视频。

另外,值得一提,中间的这个视频也非常重要:对世界状态做一些编辑

而上文提到过训练安全鲁棒的算法,其中一个挑战是极端情况的数据非常难得。

解决思路:人为注入极端要素(如突然有动物穿越车前),生成对应视频,用于验证算法的鲁棒性——

这正是高性能Transfer的价值

接下来的一段视频,让大家更好地去理解一下现在它能达到的效果。

最后,推理模型Cosmos Reason。

它的输入也是一段视频, 进入视觉编码器生成token,再结合文字的prompt输入到大语言模型里面,进行思维链的计算,最后输出。

Cosmos Reason应用领域非常多。

比如做质检的企业,拿它做视频的标注,或者视频的判断,包括对于模型做直接的微调之后,甚至可以直接去作为机器人VLA(Vision Language Action)的模型。

有两个小的例子。

第一个让Reason模型对视频做精细的描述:

第二个问Reason模型,在视频里面工人是不是戴了硬质安全帽,是否与风力发电机保持安全连接等

人工智能已经在数字世界取得非常大的成功,深刻地改变了日常的生活与工作的习惯,并正加速进入物理世界。

最后,赖俊杰再次强调:

为了能够训练与开发出来鲁棒的模型、算法, 

 

为了能够让这些AI算法对真实的物理世界、对人类足够安全, 

 

NVIDIA开发开源了Cosmos世界基础模型。

展望未来十年,英伟达相信在物理世界,物理AI的应用必将取得非常实质性的进步,进一步解放人类的生产力。


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652626222&amp;idx=1&amp;sn=02ed1121f1639920d64c0ae0241b81a1&amp;chksm=f0ba621f88b85c0771840890721c7917989dcdd096d3877be3fcf447e905925e2cd48588d5f8&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/i8KmHwmvPe&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们