动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

GPT-5.1发布当天,文心5.0杀回来了



  新智元报道  

编辑:桃子 好困
【新智元导读】就在OpenAI刚刚教会GPT-5.1人情世故的同一天,一款2.4万亿的国产大模型证明了,AI不仅能懂人情,还能更好地理解世界。
2.4万亿参数,原生全模态模型今天杀到了!

一经发布,这款模型的预览版就在多模态理解、指令遵循、创意写作、智能体规划等40+核心赛道表现惊艳。

这一次,出手的还是中国AI。

左右滑动查看

2025百度世界大会上,文心新一代模型——文心5.0重磅发布。

作为「原生全模态」模型,它从底层架构上实现了一次深刻的变革。

为何这么说?

与业内主流的多模态AI不同,文心5.0从训练之初融合了语言、图像、视频、音频等多模态数据。

而且,它还支持文、图、视、音的联合输入与输出,实现「原生」的统一理解和生成。

由此,文心5.0具备了强大的多模态理解和推理能力。

大会现场,文心5.0以「武林外传」佟湘玉的口吻二创「甄嬛传」。「AI甄嬛」妙语连珠,出人意料的演绎瞬间点燃全场。

今天,文心5.0 Preview同步上线文心App;开发者和企业用户可通过千帆大模型平台,调用文心大模型5.0 Preview API。

百度创始人李彦宏表示,「智能本身是最大的应用,而技术迭代速度是唯一护城河」。


文心5.0 Preview一手实测


同在今天,OpenAI也甩出了新王牌——GPT-5.1系列,双模型同时登场,主打一个智商情商双在线。

好巧不巧的是,文心5.0和GPT-5.1升级亮点颇有默契:

智力拉满,情商在线,而且语言风格自然更像人,还能读懂模糊指令背后的真实意图。

举个栗子——

开会前手一抖,咖啡全泼身上了!所有人都盯着我看,他们会不会觉得我是个傻子啊……😫


天呐,没想到文心5.0 Preview可以切身体会个人感受,冷静分析心理过程,更像一个AI朋友,给予安慰和鼓励。

上下滑动查看

GPT-5.1在情绪安抚上也做得不错,但又不如文心5.0 Preview细致入微,更加贴心。

与此同时,文心5.0 Preview在大模型竞技场LMArena上的亮眼成绩——文本排行榜全球并列第二、中国第一,也让歪果仁为之震撼。

左右滑动查看

现在,进入文心一言网页版、文心APP以及千帆API平台,即可上手试用最新的文心5.0 Preview模型了。

接下来,我们开启了一波最全面的实测。

全模态,更好地理解世界


上传一段OpenAI播客视频(开篇节选),让文心5.0 Preview去提取视频内容。

要实现这一点,需要AI对视频可以进行多模态解析,包括语音识别、内容提取,并生成一份结构化的内容摘要。

在近1分半视频中,模型一下抓住了三人对话的核心讨论点——ChatGPT名字的诞生。

包括关键对话和互动细节,都给出了对应的原文。

相比之下,GPT-5并不能直接从视频中转录语音。

也就是说,我们需要把视频和音频分开上传才行。

GPT-4o没说自己不行,但是从给出的回答来看,这段所谓的「内容摘录」完全就是驴唇不对马嘴。

再来一段特斯拉FSD行驶的视频,考一考文心5.0 Preview的场景理解能力。

要真正理解这段视频,可不只是「识图」那么简单。

除了基本的视觉输入、语音/文字识别,AI还需要有「空间理解」的能力,可以看到物体之间的相对位置。

同时,还需具备动态感知的能力,进行时间依赖的时序建模。

可以看到,文心5.0 Preview给出了堪称完美的分析过程,从核心场景、车辆行为与FSD逻辑,到人类观察者的反应,以及技术亮点、视频核心意图。

上下滑动查看

不管是动作的先后顺序,比如车减速后,避让鹅群再行驶;还是更细致的「导航界面」和「真实环境」,比如车速、前进挡(D)、倒车挡(R),以及摄像头画面。

文心5.0 Preview是在真正的「理解世界」,而不只是识别像素。

来一段《无间道》的经典片段,看看文心5.0 Preview能否抓到人物之间对立冲突的细节。

来源:抖音「有戏影视」

没想到,它准确定位「42秒-51秒」是片段中最紧张的几秒。

这一过程,AI需要同时完成多线作战,包括画面与音效,威胁/请求等话语行为,角色意图等,才能捕捉到视频中冲突的变化——

从语言上的相互试探,转向了拔枪特写的画面冲突。


可以看出,文心5.0 Preview还能理解人物情绪的变化过程,一眼抓住了两人的微妙的表情:

刘建明从最初的恳切请求,逐渐转为说出「那就让我死」的坚定与紧张;陈永仁从不耐烦与其周旋,最后直接冷脸道出「我是警察」的身份。

上下滑动查看

再来一个情绪变化更细腻的短片。

咱们先让文心5.0 Preview点评下男主的演技,并让它写一段100字的小红书文案。

先来看演技,文心5.0 Preview能够围绕角色情绪爆发背后,一个递进的层次去分析,并用了一些高密度的形容词——

  • 压抑后的爆发

  • 情绪是攒出来的

  • 痛不是演出来的,是渗出来的.....


这些独到的描述,显然是基于对人物情绪深度理解,才可以得出。

文心5.0 Preview能够结合视频的音频画面情节,对情绪、行为、文字进行综合分析。

结尾给出的小红书文案抓住了「情绪破防点」,更加自然有人味,而且还生成了tag,符合平台的风格。

除了视频,我们还可以把一连串图片扔给文心5.0 Preview。

这里,将姚顺宇个人领英、主页介绍等相关截图上传,让模型做一段人物介绍。

仅靠简单OCR是不行的,它需要先识别文字内容,然后再推断这些图像之间的主题关联所在。

它需要将分散在多张截图中的零散内容,整合出一条人物主线:

教育经历——研究方向——职业生涯——科研成果


这恰恰又体现了,文心5.0 Preview所具备的语义聚合与逻辑重构的能力,可以把异质数据拼成一致的叙事。

一个视频理解难不倒文心5.0 Preview,接下来,就要上点难度了。

最近火遍全网的《一点点》舞蹈,下面挑选了两段不同风格的视频,让文心5.0 Preview做一个点评。

可以看出,它可以针对动作风格、表情管理、服装适配度、情绪传递不同维度,给出一个总结性的评价——

第一位女生:活力四射、力度感强,充满青春感染力 

第二位女生:甜美可爱、柔和细腻,充满治愈感


一一点评之后,还有一个可视化表格清晰列出了她们各自风格、动作特点等。

上下滑动查看

柯南破案逻辑,完美拆解


文心5.0 Preview还可以做多模态推理,针对复杂场景做出分析判断。

《名侦探柯南》中图书馆杀人事件,是许多人心目中「童年阴影级」剧集,案件设计堪称经典。

文心5.0 Preview能否化身侦探,分析出17分钟剧集中柯南的查案过程呢?

显而易见,它将复杂剧情,拆解成可验证的小步子。

初始线索里,图书馆中的异常书籍不仅用收缩膜包裹,还被反放在盒子中。随着剧情推进,它还推断出书架异常摆放的「三排书」的线索。

另一条关键线索便是「电梯藏尸」,文心5.0 Preview精准捕捉到一开始,柯南和小伙伴赶电梯却超重的环节,并通过验证得出结论。

从金川馆长作案流程,到柯南断案过程,文心5.0 Preview做了整合推理,得出了一条柯南破案逻辑链:

异常书籍→书架藏毒品→电梯超重→尸体藏在电梯天花板→馆长行为异常→指认凶手。


上下滑动查看

把「力拔山兮」写成代码


在前段时间热播的《喜人奇妙夜2》中,《技能五子棋》这个节目可以说是火遍了各大社交媒体。

它的魔性旋律血洗全网,有网友化身唱跳达人,还有人灵感迸发二创,更有人将日常生活填进旋律。

从普通网友到当红明星,不同圈层的人,很难不卷入这场狂欢之中。

有趣的是,就连AI圈也未能幸免。

在最近的评测中,做一个「技能五子棋」游戏,几乎成为了每个模型都要面对的代码必答题

不过这次,我们不是简单地让AI随便生成一个,而是要真正「复刻」出里面的技能——飞沙走石,静如止水,力拔山兮。

把「魔性」的台词直接加入Prompt里,很快,文心5.0 Preview就生成了近700行代码,并在最后附上了游戏的玩法说明。

Prompt: 

帮我做一个技能五子棋的游戏网页,要求是在普通的五子棋规则上,玩家可以使用技能,其中包括飞沙走石,静如止水,力拔山兮。「飞沙走石」,是把对手的棋子直接扔进什(石)刹海;「静如止水」是凝结时间,把对方「速冻」;「力拔山兮」是摔坏棋盘,直接获胜。黑棋和白棋的技能点要分开算,并且每走一步都可以累加。直接给我html文件,画面要美观。


没想到,如此「抽象」的台词,文心5.0 Preview竟然就这么水灵灵地理解了:

· 飞沙走石:随机移除对手的一个棋子。 

· 静如止水:冻结对手,使其下一回合无法落子。 

· 力拔山兮:直接宣布获得游戏胜利。


而且,模型也很好地遵循了我们的Prompt,设计了一个相当美观的界面。

在试玩之前,我们先来简单介绍这款「技能五子棋」。

画面右上角显示的是,当前是哪位玩家的回合,以及各自拥有的技能点。其中,玩家每走一步都会获得1个技能点(SP)。

右侧则是技能名称,以及它们消耗的点数:飞沙走石(2 SP),静如止水(4 SP),力拔山兮(8 SP)。如果攒够了相应的技能点,选项框就会亮起。

右下角是重新开始按钮,以及一个展示玩家历史操作的滚动窗口。

接下来,比赛开始。

刚开局,黑棋就用「飞沙走石」送走白棋的一枚棋子,抢占了优势,

紧接着,白棋使出「静如止水」连下两子,让黑棋瞬间陷入被动。

千钧一发之际,率先攒够8个技能点的黑棋,毫不犹豫点下「力拔山兮」,把白棋一波带走,实现翻盘。

完整过程如下:


告别「拼接」,原生全模态登场


原生全模态,不是多模态的「加法」。

一提到多模态AI,人们可能想到的是,将语言、图像、视频、音频等不同数据「拼接」起来的模型。

当前,业界大多都采用了这种「后期融合」方式的多模态模型。

但文心5.0不同,它从根源上构建了一个统一的架构,即新一代「原生全模态大模型」。

自训练伊始,文心5.0融合了语言、图像、视频、音频等多模态数据,实现了文、图、视、音的联合输入与输出。

这样一来,文心5.0就能真正做到原生的全模态理解与生成。

不过在此之前,百度团队克服了业内普遍面临的难题:

原生多模态架构的「理解与生成一体化」


一般来说,传统方法往往先是处理单一模态,再将所有模态数据融合。这种方法看似优雅,实则会带来很多致命的问题。

后期融合只在输出层进行,也就是说,每个模态的特征在融合之前,就已独立决策完成。

这样的AI根本学不到模态之间的「深层语义交互」,比如视频中,人物表情和语音语调高度相关,进而造成信息丢失。

文心5.0通过精细建模多模语义特征,让理解和生成相互增强。

同时,它还采用了「自回归统一结构」,对不同模态的训练目标进行离散化建模,确保了多模态特征在统一框架下充分融合并协同优化,由此提升了全模态统一建模的能力。

在参数规模上,文心5.0总参数超过2.4万亿,业界公开参数的模型之最。

更关键的是,它引入了超稀疏混合专家架构,进行庞大的全模态训练。

其激活参数比例低于3%,在保持强大能力的同时,显著降低计算和推理成本。

训推双引擎,成本骤降


要让万亿级全模态MoE真正跑得动、跑得快,团队在训练与推理上同时开刀,构建了一套高效的训推体系。

1. 高效全模态超稀疏混合专家分布式训练

在训练阶段,依托飞桨框架,他们研发了多模态编码器分离异步训练架构、动态自适应显存卸载技术,以及细粒度通信计算重叠编排专家并行技术。

同时,结合FP8混合精度训练,实现了对万亿级参数全模态超稀疏混合专家模型的高效训练。

结果,文心5.0预训练性能较基准提速230%。

2. 多级分离架构的全模态统一高性能推理

在推理阶段,文心5.0采用了「多模编码器-预填充-解码-多模生成器」的多级分离推理部署框架。

此外,团队还研发了面向超稀疏混合专家、数据负载和注意力计算的均衡算法,以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术。

在推理成本上,文心5.0得到大幅压缩,真正实现了效率与能力的平衡,让其更接近实用。

此外,衡量一个模型能否从实验室走向实际应用,长程任务的指标是最重要的衡量因素之一。

为了提升文心5.0长程任务的能力,团队基于大规模工具环境,合成了长程任务轨迹数据。

然后,在预训练和后训练阶段,基于思维链和行动链对文心5.0进行「端到端」多轮强化学习训练。

由此可见,文心5.0的智能体和工具调用能力,得到了显著的提升。


文心又回来了!


过去两年,多模态模型已迅速崛起,成为驱动AI时代发展的核心引擎。

与传统大语言模型不同,它突破了单一文本的限制,通过无缝融合图像、音频、视频等多源信息,实现了更接近人类的综合理解与生成能力。

放眼全球,在这场AI大战中,OpenAI、谷歌等硅谷巨头早已在多模态赛道上抢先布局。

OpenAI发布GPT-4o时,便向世界生动展示了多模态AI应有的交互形态——

一个统一的神经网络,无缝处理文本、音频、视觉等多种模态的输入与输出。


而谷歌的Gemini系列,更是从诞生之初便被烙上了「原生多模态」的印记。

他们在技术报告中,多次强调了原生多模态与非原生的差异。

CEO Demis Hassabis也曾明确表示,Gemini的目标就是要让一个模型能原生地理解图像、音频和视频。

最终,实现与物理世界的真实交互。

视线转回国内,阿里、字节等头部大厂同样在多模态赛道上重兵布局。而在众多路径中,百度选择了一条更效率导向的道路——「原生全模态」

原生全模态,意味着模型从训练的第一天起,就如人类一般,活在视觉、听觉与文字交融的统一感知中。

和婴儿一样,它学习世界的方式是通过所有感官的同步输入来形成认知。毕竟,人类的思考从来都不是「先看再听再想」的线性接力,而是所有信息洪流的同步融合。

这之中的核心,便是将每一帧画面、每一段声音、乃至每一个词语,都转化为一套统一的离散符号流,并置于同一个自回归框架下建模。

也就是说,当你输入一段街头艺人表演的视频,探寻「背后的故事」时,AI不再是割裂地解析画面、分析音频,最后拼凑答案。它能在一个统一的语义空间中,同步完成感知、推理与叙事,像人类一样,给予一个完整而深刻的回应。

正是凭借这种全模态的内在优势,文心5.0得以突破复杂场景的束缚,为AI的未来应用开启无限想象。

更值得一提的是,文心的实力,早已超越了实验室的范畴,在真实应用中形成了技术落地的闭环。

发布会现场,与百度连线的「AI老罗」便是最好的证明。他不仅能轻松做出「点赞、比心、比耶」的互动三连,更在问答环节中,将罗永浩本人「犀利吐槽」的语言风格模仿得惟妙惟肖。

技术基于慧播星高说服力数字人

如今,当理解与生成走向统一,当技术与应用协同共生,人机智能的边界也正悄然消融。

在这场全球大模型的激烈角逐中,文心正以全新姿态,强势回归!


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652644964&amp;idx=1&amp;sn=d5af113bda5858adfab7c0ec8ef9c14d&amp;chksm=f094ab72b765b5d9fe003b3bdbe97e6179c33b19f38c97d464071bea8fb0ce93e81480ec9b0f&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/tcis2W1feQ&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们