动态列表

不到10天，国产「香蕉」突袭！一次7图逼真还原，合成大法惊呆歪果仁
再也不怕面瘫脸！YouTube黑科技：AI帮你「永久微笑」，连僵尸都咧嘴笑
OpenAI真正王牌，不是Ilya！刚刚，奥特曼罕见致谢这两人
缔造OpenAI的秘密，竟只有一个词！新智元十年峰会圆桌，七位大咖激辩
Hinton预言失灵？掌握AI技能涨薪23%，比读硕士更赚钱
文心新出的推理大模型，给了我们信心
SFT远不如RL？永不过时的剃刀原则打开「终身学习」大模型训练的大门
从第一性原理出发的RAG推理新范式来了，蚂蚁DIVER登顶权威基准
字节跳动发布 Seedream 4.0 图像创作模型，豆包、即梦可免费体验
从科幻到产业元年 | 「脑机接口」系统综述发布：全景解析理论、技术、挑战、趋势
硅谷也996实锤了？AI的火，烧掉了硅谷的周末
DPad: 扩散大语言模型的中庸之道，杜克大学陈怡然团队免训推理加速61倍
Altman亲自发博客点赞，这两大杰出人才是谁？
自变量机器人完成近 10 亿元 A+ 轮融资，多元资本押注共同布局具身智能未来
报名启动！西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
不止综述！多模态大模型持续学习全链路：Benchmark、方法与Codebase一网打尽
ICML 2025 | 别再只拼CoT了！不完备信息下的主动推理，LLM普遍掉线
科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
时空壶发布 W4：用「硬核」技术，打赢一场 AI 翻译的「标准」之战
Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」，解析疾病外显率难题
TPAMI 2025 | IGEV++：迭代多范围几何编码，刷新立体匹配技术新高度
原来你是这样的外滩大会！
小米通报王腾因泄密被辞退，本人发微博回应；传 IPO 估值 500 亿，宇树回应；辛顿自曝被女友用 AI 分手 | 极客早知道
Hinton自曝：前女友提分手，用ChatGPT列出自己「七宗罪」
从「会说」迈向「会做」，LLM下半场：Agentic强化学习范式综述
字节Seedream 4.0将全量开放！抢先评测来了，我们摸索出AI生图20种「邪修」玩法
全球图生视频榜单第一，爱诗科技PixVerse V5如何改变一亿用户的视频创作
扎克伯格的豪赌初见成效？Meta新方法让LLM长上下文处理提速30倍
具身VLA后训练：TeleAI提出潜空间引导的VLA跨本体泛化方法
上海AI Lab重磅综述：AI实现自主科学发现时代已经到来
6 个月估值暴涨 5 倍突破 100 亿美元，三个「00后」逼急 Scale AI
深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员（社招/校招）
给RL装上“防抖器”！GRPO稳化版来了：更高熵、更低KL、更稳更新
导师放养真的会毁掉一个人……
Focal Loss也能无监督？北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
上汽通用五菱与华为深化合作，推出首款车型宝骏华境S
IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”，在复杂3D场景中实现精准移动操作
国行版苹果 AI 推迟至年底上线；视频平台广告被曝「偷时间」；美国计划限制进口中国无人机和重型载具 | 极客早知道｜极客早知道
16岁创业，22岁做成百亿独角兽！3位高中同学帮大厂训AI年入1亿美金
《2025新智元ASI前沿趋势报告》全文
一图看透全球大模型！新智元十周年钜献，2025 ASI前沿趋势报告37页首发
苹果端侧AI两连发！模型体积减半、首字延迟降85倍，iPhone离线秒用
Claude不让我们用！国产平替能顶上吗？
SceneSplat: 基于3DGS的场景理解和视觉语言预训练，让3D高斯「听懂人话」的一跃
慕尼黑车展 2025前瞻：中国队组团出海，BBA 走向「新」时代
国内外AI大厂重押，初创梭哈，谁能凭「记忆」成为下一个「DeepSeek」？
斯坦福：优化器「诸神之战」？AdamW 凭「稳定」胜出
字节跳动Seed推出「机器人大脑」Robix：让机器人学会思考、规划与灵活互动
浙大提出SSGaussian：注入语义与结构灵魂的3D风格迁移，让高斯溅射场景化身艺术品
苹果 iPhone 17 系列规格已全被曝光；Anthropic 全面封杀中国公司接入；今夜将迎来「血月」月全食｜极客早知道
OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首
设计师大解放！清华发布「建筑平面图」自动生成模型 | ACL'25
谁不用谁亏！Karpathy吹爆GPT-5：10分钟编码完胜Claude一小时，奥特曼秒回感谢
震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？
Anthropic被作家告了，违规下载700万本书，15亿美元和解了
英伟达的局：狂撒15亿美元，从Lambda那租到了搭载自家AI芯片的GPU服务器
OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首
00后以1.1亿美金「掀桌」，硅谷AI将书写影视新传奇终结制片旧时代
任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式
ICCV 2025 | MOSEv2 全新亮相，第七届 LSVOS 挑战赛正式开启！
IEEE TPAMI 2025｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！
华为新问界 M7，6 小时订单破 13 万；等 eSIM，iPhone17 Air 首发无国行；特斯拉拟给马斯克 1 万亿薪酬
力压哈佛MIT！北交大、清华勇夺2025国际大学生程序设计竞赛金牌
长视频生成可以回头看了！牛津提出「记忆增稳」，速度提升12倍
0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道
今天，特朗普闭门宴请了大半个硅谷的CEO，马斯克老黄没来
追觅给洗地机，加了一双「灵巧手」
被网友逼着改名的谷歌Nano Banana，正在抢99%时尚博主的饭碗
不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂
外滩大会主论坛阵容揭幕！顶级学者、产业领袖和青年创新力量共话未来
第一家 AI 浏览器公司，卖了 43 亿！
Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了
推理加持的排序SOTA！把“召回+相似度”写进RL，文档排序更稳更准
KDD 2025 | 图异常基础模型来了：跨域零样本、少样本微调，原型残差全拿下
透明度罕见！百川公开M2完整技术报告，强化学习新范式引发行业关注
博士申请 | 香港中文大学（深圳）游宇宁老师招收人工智能+生物医药全奖博士/实习生
沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了
多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！
TPAMI重磅综述：一文读懂人类动作视频生成的五大阶段与三大多模态技术
拓展天文学认知边界，Google DeepMind用AI助力LIGO，填补宇宙演化史缺失环节
拍我AI限时免费6天！手办、宠物、奇幻创意随你生成不限次！
传 DeepSeek AI 代理新模型年底发布；马斯克「金色擎天柱」首曝；比亚迪不回应销量下调传闻
通用LLM压缩算法，居然藏视频编码里！2.5bit实现4bit性能，硬件无缝支持
83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI
「纳米香蕉」LMArena两周500万投票，引爆10倍流量！谷歌、OpenAI扎堆打擂台
DeepSeek大招曝光？梁文峰督战超级智能体：能自主学习，或年底发布
24999 元！华为推了一个「最大」的 Mate！
刚刚，李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
又多了一个哄孩子AI神器，一张破涂鸦竟能秒变迪士尼动画
PosterGen：告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报
「一句话生成爆款视频」，这款 AI 流量神器有点东西｜AI 上新
Claude Code凭什么牛？大模型团队天天用自家产品，发现bug直接就改了
刚刚，OpenAI发布白皮书：如何在AI时代保持领先
科研AI的进化论！系统梳理600+数据集与模型，上海AI Lab等发布科学大语言模型全景式综述
腾讯 ARC Lab 开源 IC-Custom ：一个强大且灵活的图像定制化工具！
长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman
全奖读AI！人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
SIGCOMM 2025｜重新定义个性化视频体验，快手与清华联合提出灵犀系统
北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
听见空间！ASAudio全景综述：空间音频表示→理解→生成全链路
多模态大模型，真的“懂”世界吗？ICML 2025高分论文实锤核心认知盲区
拜读了某大佬发表的N篇顶会，原来论文“灌水”是这么玩的
特斯拉下一代金色Optimus原型现身？一双「假手」成为最大槽点
让具身智能体拥有「空间感」！清华、北航联合提出类脑空间认知框架，导航、推理、做早餐样样精通
传特斯拉 Model Y L 日均订单过万；苹果联手谷歌，Siri 整合 Gemini；优必选获 2.5 亿，全球最大人形机器人订单
UCSD首个智能体浏览器发布！多页面设计，颠覆传统交互
Hinton最新警告：杀手机器人或将带来更多战争，最大担忧是AI接管人类
AI教父Hinton诺奖演讲首登顶刊！拒绝公式，让全场秒懂「玻尔兹曼机」
奥数金牌只是序章！OpenAI谷歌彻底打脸预言家，AI巨浪势不可挡
出货 1000 万台硬件后，我们和「凯叔讲故事」聊了聊「AI玩具」的核心
他不懂代码，却用 AI 黑掉 17 家医院和机构，Vibe Hacking 让全世界变成缅北
刚刚，谷歌放出Nano Banana六大正宗Prompt玩法，手残党速来
Anthropic承认模型降智后仍放任其偷懒？Claude Code用户信任崩塌中
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
ICLR 2025｜KGExplainer：让新知识的发现“有理可循”
入局AI4S？CPO宣布「OpenAI for Science」计划：打造下一代科学工具
2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
从复刻魔术开始，RoboMirage打开了机器人仿真的新世界
宇树科技官宣：年内提交IPO，或将冲刺科创板
其实，扩散语言模型在最终解码之前很久，就已确定最终答案
语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究
原子思维上线！Agentic Deep Research再进化：推理更深、答案更准
Benchmark新试炼场！从棋盘到德扑全覆盖，GAMEBoT虐测大模型推理力
北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
【9月9日直播】大模型复杂推理技术：如何重塑AI推理逻辑
USO：鱼与熊掌亦可兼得，字节跳动提出统一框架，完美融合主体与风格生成
刚刚，Anthropic在质疑声中获130亿美元融资，估值达1830亿
IROS 2025 | 机器人衣物折叠新范式，NUS邵林团队用MetaFold解耦轨迹与动作
iPhone 17定价曝光，仅Pro涨价；李斌：4季度实现月卖5万台车；COD「使命召唤」大电影官宣｜极客早知道

击败多个行业巨头，优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一

2025-09-09未知作者来源

当行业还在激烈讨论「具身智能」的落地路径时，人形机器人的「大脑」进化竞赛，已经悄然抵达一个新的里程碑。

近日，优必选对外公布，其自主研发的人形机器人 Walker 的「最强大脑」——百亿参数基座的多模态大模型 Thinker，在全球三大权威 AI 基准测试中，一举斩获四项世界第一。

这些由微软、谷歌等巨头发起和提出的榜单，吸引了包括英伟达、北京智源研究院、上海 AI Lab 在内的全球顶尖团队同场竞技。此次优必选的胜出，不仅证明了其在机器人复杂环境感知、语义理解与长程任务规划等核心维度的技术领先，更标志着其人形机器人 Walker S 具身智能的关键进化，真正让机器人「看懂世界、自主完成任务」成为可能。

01

多模态感知+强推理规划

赋能工业场景规模化应用

在智能化浪潮席卷全球的当下，人形机器人的规划能力已成为关键竞争维度之一。传统机器人系统依赖预设指令执行任务，难以应对高度动态、多变的现实场景。而本次三大基准测试的核心，正是针对人形机器人在复杂环境中的多模态感知和推理规划能力进行系统化验证。

MS COCO detection challenge 由微软发起，是计算机视觉领域的权威评测基准之一，在全球学术界与工业界享有极高认可度，常年被众多顶尖论文与技术报告用作感知算法性能的衡量标准。

RoboVQA 和 Egoplan-bench2 则分别由谷歌 DeepMind 和香港大学提出，致力于构建机器人第一视角推理与任务规划的公开标准基准测试，重点关注多模态、长周期任务规划能力。参与排名的模型包括北京智源、英伟达 ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl 等。

优必选 Thinker 在 MS COCO detection challenge - Segmentation Mask 中排名第一

优必选 Thinker 在 MS COCO detection challenge - Bounding Box 排名中并列第一

优必选 Thinker 在 RoboVQA 与 Egoplan-bench2 中排名第一

这一成绩的背后，是优必选自主研发的 Thinker 架构与训练框架所提供的技术支撑，通过多项关键技术创新性整合，系统化提升了人形机器人的感知与推理规划能力，为工业场景的规模化应用奠定基础。

Prompt:「Move the material box to the conveyor belt.」

Thinker:「First locate the conveyor belt, then place the material box.」

Walker S2 在工业场景中自主完成上料

第一，自研视觉编码器基座，构建精准环境感知。优必选以 ViT 作为视觉编码器原型，结合 Co-DETR 检测头，依托 Object 365 等开源数据在通用视觉任务上进行预训练，并通过多阶段模态对齐机制实现了视觉-语言模态的高效融合。最终，在优必选机器人数据集上进行微调，显著提升机器人在工业场景中对物体、障碍和操作上下文的识别能力，为复杂环境下稳定可靠的多模态环境感知奠定了坚实基础。

第二，超大规模参数架构，提供强大语义理解基础。优必选自研了具有百亿参数的多模态大模型 Thinker 基座，实现视觉-语言-时间的跨域统一表征，使机器人能够在多场景中准确捕捉环境细节、理解任务指令并做出推理，为自动化操作提供可靠的认知基础。

第三，时序增强算法与强化学习方法，增强长程任务规划连贯可靠。通过大模型蒸馏技术，将百亿参数模型效果浓缩至 7B 参数模型中，在保持高性能的同时增强多步骤任务分解与连续决策能力。该优化使模型可以在端侧部署，用机器人自身搭载的算力就可实时自主拆解复杂流程，避免规划中断或逻辑混乱，在流程严格、环环相扣的工业场景中展现出关键价值，将有力保障生产连贯性和操作安全性。

02

通用基础能力打造+工业场景精调

共创工业人形机器人应用生态

工业场景的精调策略正成为推动多模态大模型迈向实际应用的关键力量，为人形机器人在生产线上的稳定、高效部署奠定了技术基础，加速其从技术验证走向规模化实战应用的进程。

优必选创新性地采用「通用基础能力打造+工业场景精调」的微调策略，基于超 200 万条视频数据构成的大规模训练集进行预训练，随后引入优必选在工厂实训中积累的亿级工业数据集进行微调，并对工业场景任务规划数据加以清洗与整合，构建高效多模态大模型学习闭环。通过这一流程，模型能够快速学习工业场景的视觉特征、任务规则与操作偏好，最终显著提升人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性，实现在多种复杂场景中的泛化性与稳定性。

Prompt:「Move the material box onto the pile of boxes next to it.」

Thinker:「The middle slot is the best one for the material box.」

Walker S2 在工业场景中自主规划任务

在 Thinker 大模型技术体系的全方位赋能下，优必选新一代工业人形机器人 Walker S2 实现「最强大脑」再进化，不仅具备高精准环境感知能力，更能够在动态场景中高效完成任务分解、实时调整与稳定规划。借助 Thinker，Walker S2 可精准识别设备、物料与障碍物，深度理解场景语义及操作前后逻辑关联，显著提升长周期任务的执行稳定性。在复杂流水线环境中，机器人展现出持续连贯的规划能力，大幅降低对人工干预的依赖。

实际应用数据显示，相比仅基于通用数据微调的模型，采用工业数据集进行二次微调后，Walker S2 在拆码垛规划等典型任务的中的规划精度提升超过 20%，有力验证了该技术方案的产业化价值，相关技术报告将在 arxiv 上发布。

Prompt:「Move the material box onto the roller rack.」

Thinker:「First locate the roller rack and then place material box.」

Walker S2 在工业场景中自主规划任务

当前，人形机器人正在进入大规模应用的关键阶段，其发展亟需与开发者共同构建开放、协同的应用生态。为此，优必选将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型，为全行业提供源自实际应用一线的高质量合规数据资源。开发者可基于优必选多模态大模型 Thinker，面向各类新场景开展精调与二次开发，助力提升开发效率。我们期待与全球开发者携手，共创工业人形机器人的应用生态，为具身智能行业的加速发展注入持续动能。

动态列表

击败多个行业巨头，优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一

01

02

类别

资源

联系我们