ToolsAi

新智元报道

编辑：桃子好困

【新智元导读】就在OpenAI刚刚教会GPT-5.1人情世故的同一天，一款2.4万亿的国产大模型证明了，AI不仅能懂人情，还能更好地理解世界。

2.4万亿参数，原生全模态模型今天杀到了！

一经发布，这款模型的预览版就在多模态理解、指令遵循、创意写作、智能体规划等40+核心赛道表现惊艳。

这一次，出手的还是中国AI。

左右滑动查看

2025百度世界大会上，文心新一代模型——文心5.0重磅发布。

作为「原生全模态」模型，它从底层架构上实现了一次深刻的变革。

为何这么说？

与业内主流的多模态AI不同，文心5.0从训练之初融合了语言、图像、视频、音频等多模态数据。

而且，它还支持文、图、视、音的联合输入与输出，实现「原生」的统一理解和生成。

由此，文心5.0具备了强大的多模态理解和推理能力。

大会现场，文心5.0以「武林外传」佟湘玉的口吻二创「甄嬛传」。「AI甄嬛」妙语连珠，出人意料的演绎瞬间点燃全场。

今天，文心5.0 Preview同步上线文心App；开发者和企业用户可通过千帆大模型平台，调用文心大模型5.0 Preview API。

百度创始人李彦宏表示，「智能本身是最大的应用，而技术迭代速度是唯一护城河」。

文心5.0 Preview一手实测

同在今天，OpenAI也甩出了新王牌——GPT-5.1系列，双模型同时登场，主打一个智商情商双在线。

好巧不巧的是，文心5.0和GPT-5.1升级亮点颇有默契：

智力拉满，情商在线，而且语言风格自然更像人，还能读懂模糊指令背后的真实意图。

举个栗子——

开会前手一抖，咖啡全泼身上了！所有人都盯着我看，他们会不会觉得我是个傻子啊……😫

天呐，没想到文心5.0 Preview可以切身体会个人感受，冷静分析心理过程，更像一个AI朋友，给予安慰和鼓励。

上下滑动查看

GPT-5.1在情绪安抚上也做得不错，但又不如文心5.0 Preview细致入微，更加贴心。

与此同时，文心5.0 Preview在大模型竞技场LMArena上的亮眼成绩——文本排行榜全球并列第二、中国第一，也让歪果仁为之震撼。

左右滑动查看

现在，进入文心一言网页版、文心APP以及千帆API平台，即可上手试用最新的文心5.0 Preview模型了。

接下来，我们开启了一波最全面的实测。

全模态，更好地理解世界

上传一段OpenAI播客视频（开篇节选），让文心5.0 Preview去提取视频内容。

要实现这一点，需要AI对视频可以进行多模态解析，包括语音识别、内容提取，并生成一份结构化的内容摘要。

在近1分半视频中，模型一下抓住了三人对话的核心讨论点——ChatGPT名字的诞生。

包括关键对话和互动细节，都给出了对应的原文。

相比之下，GPT-5并不能直接从视频中转录语音。

也就是说，我们需要把视频和音频分开上传才行。

GPT-4o没说自己不行，但是从给出的回答来看，这段所谓的「内容摘录」完全就是驴唇不对马嘴。

再来一段特斯拉FSD行驶的视频，考一考文心5.0 Preview的场景理解能力。

要真正理解这段视频，可不只是「识图」那么简单。

除了基本的视觉输入、语音/文字识别，AI还需要有「空间理解」的能力，可以看到物体之间的相对位置。

同时，还需具备动态感知的能力，进行时间依赖的时序建模。

可以看到，文心5.0 Preview给出了堪称完美的分析过程，从核心场景、车辆行为与FSD逻辑，到人类观察者的反应，以及技术亮点、视频核心意图。

上下滑动查看

不管是动作的先后顺序，比如车减速后，避让鹅群再行驶；还是更细致的「导航界面」和「真实环境」，比如车速、前进挡（D）、倒车挡（R），以及摄像头画面。

文心5.0 Preview是在真正的「理解世界」，而不只是识别像素。

来一段《无间道》的经典片段，看看文心5.0 Preview能否抓到人物之间对立冲突的细节。

来源：抖音「有戏影视」

没想到，它准确定位「42秒-51秒」是片段中最紧张的几秒。

这一过程，AI需要同时完成多线作战，包括画面与音效，威胁/请求等话语行为，角色意图等，才能捕捉到视频中冲突的变化——

从语言上的相互试探，转向了拔枪特写的画面冲突。

可以看出，文心5.0 Preview还能理解人物情绪的变化过程，一眼抓住了两人的微妙的表情：

刘建明从最初的恳切请求，逐渐转为说出「那就让我死」的坚定与紧张；陈永仁从不耐烦与其周旋，最后直接冷脸道出「我是警察」的身份。

上下滑动查看

再来一个情绪变化更细腻的短片。

咱们先让文心5.0 Preview点评下男主的演技，并让它写一段100字的小红书文案。

先来看演技，文心5.0 Preview能够围绕角色情绪爆发背后，一个递进的层次去分析，并用了一些高密度的形容词——

压抑后的爆发
情绪是攒出来的
痛不是演出来的，是渗出来的.....

这些独到的描述，显然是基于对人物情绪深度理解，才可以得出。

文心5.0 Preview能够结合视频的音频画面情节，对情绪、行为、文字进行综合分析。

结尾给出的小红书文案抓住了「情绪破防点」，更加自然有人味，而且还生成了tag，符合平台的风格。

除了视频，我们还可以把一连串图片扔给文心5.0 Preview。

这里，将姚顺宇个人领英、主页介绍等相关截图上传，让模型做一段人物介绍。

仅靠简单OCR是不行的，它需要先识别文字内容，然后再推断这些图像之间的主题关联所在。

它需要将分散在多张截图中的零散内容，整合出一条人物主线：

教育经历——研究方向——职业生涯——科研成果

这恰恰又体现了，文心5.0 Preview所具备的语义聚合与逻辑重构的能力，可以把异质数据拼成一致的叙事。

一个视频理解难不倒文心5.0 Preview，接下来，就要上点难度了。

最近火遍全网的《一点点》舞蹈，下面挑选了两段不同风格的视频，让文心5.0 Preview做一个点评。

可以看出，它可以针对动作风格、表情管理、服装适配度、情绪传递不同维度，给出一个总结性的评价——

第一位女生：活力四射、力度感强，充满青春感染力

第二位女生：甜美可爱、柔和细腻，充满治愈感

一一点评之后，还有一个可视化表格清晰列出了她们各自风格、动作特点等。

上下滑动查看

柯南破案逻辑，完美拆解

文心5.0 Preview还可以做多模态推理，针对复杂场景做出分析判断。

《名侦探柯南》中图书馆杀人事件，是许多人心目中「童年阴影级」剧集，案件设计堪称经典。

文心5.0 Preview能否化身侦探，分析出17分钟剧集中柯南的查案过程呢？

显而易见，它将复杂剧情，拆解成可验证的小步子。

初始线索里，图书馆中的异常书籍不仅用收缩膜包裹，还被反放在盒子中。随着剧情推进，它还推断出书架异常摆放的「三排书」的线索。

另一条关键线索便是「电梯藏尸」，文心5.0 Preview精准捕捉到一开始，柯南和小伙伴赶电梯却超重的环节，并通过验证得出结论。

从金川馆长作案流程，到柯南断案过程，文心5.0 Preview做了整合推理，得出了一条柯南破案逻辑链：

异常书籍→书架藏毒品→电梯超重→尸体藏在电梯天花板→馆长行为异常→指认凶手。

上下滑动查看

把「力拔山兮」写成代码

在前段时间热播的《喜人奇妙夜2》中，《技能五子棋》这个节目可以说是火遍了各大社交媒体。

它的魔性旋律血洗全网，有网友化身唱跳达人，还有人灵感迸发二创，更有人将日常生活填进旋律。

从普通网友到当红明星，不同圈层的人，很难不卷入这场狂欢之中。

有趣的是，就连AI圈也未能幸免。

在最近的评测中，做一个「技能五子棋」游戏，几乎成为了每个模型都要面对的代码必答题

不过这次，我们不是简单地让AI随便生成一个，而是要真正「复刻」出里面的技能——飞沙走石，静如止水，力拔山兮。

把「魔性」的台词直接加入Prompt里，很快，文心5.0 Preview就生成了近700行代码，并在最后附上了游戏的玩法说明。

Prompt：

帮我做一个技能五子棋的游戏网页，要求是在普通的五子棋规则上，玩家可以使用技能，其中包括飞沙走石，静如止水，力拔山兮。「飞沙走石」，是把对手的棋子直接扔进什（石）刹海；「静如止水」是凝结时间，把对方「速冻」；「力拔山兮」是摔坏棋盘，直接获胜。黑棋和白棋的技能点要分开算，并且每走一步都可以累加。直接给我html文件，画面要美观。

没想到，如此「抽象」的台词，文心5.0 Preview竟然就这么水灵灵地理解了：

· 飞沙走石：随机移除对手的一个棋子。

· 静如止水：冻结对手，使其下一回合无法落子。

· 力拔山兮：直接宣布获得游戏胜利。

而且，模型也很好地遵循了我们的Prompt，设计了一个相当美观的界面。

在试玩之前，我们先来简单介绍这款「技能五子棋」。

画面右上角显示的是，当前是哪位玩家的回合，以及各自拥有的技能点。其中，玩家每走一步都会获得1个技能点（SP）。

右侧则是技能名称，以及它们消耗的点数：飞沙走石（2 SP），静如止水（4 SP），力拔山兮（8 SP）。如果攒够了相应的技能点，选项框就会亮起。

右下角是重新开始按钮，以及一个展示玩家历史操作的滚动窗口。

接下来，比赛开始。

刚开局，黑棋就用「飞沙走石」送走白棋的一枚棋子，抢占了优势，

紧接着，白棋使出「静如止水」连下两子，让黑棋瞬间陷入被动。

千钧一发之际，率先攒够8个技能点的黑棋，毫不犹豫点下「力拔山兮」，把白棋一波带走，实现翻盘。

完整过程如下：

告别「拼接」，原生全模态登场

原生全模态，不是多模态的「加法」。

一提到多模态AI，人们可能想到的是，将语言、图像、视频、音频等不同数据「拼接」起来的模型。

当前，业界大多都采用了这种「后期融合」方式的多模态模型。

但文心5.0不同，它从根源上构建了一个统一的架构，即新一代「原生全模态大模型」。

自训练伊始，文心5.0融合了语言、图像、视频、音频等多模态数据，实现了文、图、视、音的联合输入与输出。

这样一来，文心5.0就能真正做到原生的全模态理解与生成。

不过在此之前，百度团队克服了业内普遍面临的难题：

原生多模态架构的「理解与生成一体化」

一般来说，传统方法往往先是处理单一模态，再将所有模态数据融合。这种方法看似优雅，实则会带来很多致命的问题。

后期融合只在输出层进行，也就是说，每个模态的特征在融合之前，就已独立决策完成。

这样的AI根本学不到模态之间的「深层语义交互」，比如视频中，人物表情和语音语调高度相关，进而造成信息丢失。

文心5.0通过精细建模多模语义特征，让理解和生成相互增强。

同时，它还采用了「自回归统一结构」，对不同模态的训练目标进行离散化建模，确保了多模态特征在统一框架下充分融合并协同优化，由此提升了全模态统一建模的能力。

在参数规模上，文心5.0总参数超过2.4万亿，业界公开参数的模型之最。

更关键的是，它引入了超稀疏混合专家架构，进行庞大的全模态训练。

其激活参数比例低于3%，在保持强大能力的同时，显著降低计算和推理成本。

训推双引擎，成本骤降

要让万亿级全模态MoE真正跑得动、跑得快，团队在训练与推理上同时开刀，构建了一套高效的训推体系。

1. 高效全模态超稀疏混合专家分布式训练

在训练阶段，依托飞桨框架，他们研发了多模态编码器分离异步训练架构、动态自适应显存卸载技术，以及细粒度通信计算重叠编排专家并行技术。

同时，结合FP8混合精度训练，实现了对万亿级参数全模态超稀疏混合专家模型的高效训练。

结果，文心5.0预训练性能较基准提速230%。

2. 多级分离架构的全模态统一高性能推理

在推理阶段，文心5.0采用了「多模编码器-预填充-解码-多模生成器」的多级分离推理部署框架。

此外，团队还研发了面向超稀疏混合专家、数据负载和注意力计算的均衡算法，以及动态自适应多步投机解码和效果无损低比特键值缓存量化技术。

在推理成本上，文心5.0得到大幅压缩，真正实现了效率与能力的平衡，让其更接近实用。

此外，衡量一个模型能否从实验室走向实际应用，长程任务的指标是最重要的衡量因素之一。

为了提升文心5.0长程任务的能力，团队基于大规模工具环境，合成了长程任务轨迹数据。

然后，在预训练和后训练阶段，基于思维链和行动链对文心5.0进行「端到端」多轮强化学习训练。

由此可见，文心5.0的智能体和工具调用能力，得到了显著的提升。

文心又回来了！

过去两年，多模态模型已迅速崛起，成为驱动AI时代发展的核心引擎。

与传统大语言模型不同，它突破了单一文本的限制，通过无缝融合图像、音频、视频等多源信息，实现了更接近人类的综合理解与生成能力。

放眼全球，在这场AI大战中，OpenAI、谷歌等硅谷巨头早已在多模态赛道上抢先布局。

OpenAI发布GPT-4o时，便向世界生动展示了多模态AI应有的交互形态——

一个统一的神经网络，无缝处理文本、音频、视觉等多种模态的输入与输出。

而谷歌的Gemini系列，更是从诞生之初便被烙上了「原生多模态」的印记。

他们在技术报告中，多次强调了原生多模态与非原生的差异。

CEO Demis Hassabis也曾明确表示，Gemini的目标就是要让一个模型能原生地理解图像、音频和视频。

最终，实现与物理世界的真实交互。

视线转回国内，阿里、字节等头部大厂同样在多模态赛道上重兵布局。而在众多路径中，百度选择了一条更效率导向的道路——「原生全模态」。

原生全模态，意味着模型从训练的第一天起，就如人类一般，活在视觉、听觉与文字交融的统一感知中。

和婴儿一样，它学习世界的方式是通过所有感官的同步输入来形成认知。毕竟，人类的思考从来都不是「先看再听再想」的线性接力，而是所有信息洪流的同步融合。

这之中的核心，便是将每一帧画面、每一段声音、乃至每一个词语，都转化为一套统一的离散符号流，并置于同一个自回归框架下建模。

也就是说，当你输入一段街头艺人表演的视频，探寻「背后的故事」时，AI不再是割裂地解析画面、分析音频，最后拼凑答案。它能在一个统一的语义空间中，同步完成感知、推理与叙事，像人类一样，给予一个完整而深刻的回应。

正是凭借这种全模态的内在优势，文心5.0得以突破复杂场景的束缚，为AI的未来应用开启无限想象。

更值得一提的是，文心的实力，早已超越了实验室的范畴，在真实应用中形成了技术落地的闭环。

发布会现场，与百度连线的「AI老罗」便是最好的证明。他不仅能轻松做出「点赞、比心、比耶」的互动三连，更在问答环节中，将罗永浩本人「犀利吐槽」的语言风格模仿得惟妙惟肖。

技术基于慧播星高说服力数字人

如今，当理解与生成走向统一，当技术与应用协同共生，人机智能的边界也正悄然消融。

在这场全球大模型的激烈角逐中，文心正以全新姿态，强势回归！

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652644964&amp;idx=1&amp;sn=d5af113bda5858adfab7c0ec8ef9c14d&amp;chksm=f094ab72b765b5d9fe003b3bdbe97e6179c33b19f38c97d464071bea8fb0ce93e81480ec9b0f&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/tcis2W1feQ&amp;maxage=1y"  width="1px"></div></div></body></html>

动态列表

GPT-5.1发布当天，文心5.0杀回来了

新智元报道

【新智元导读】就在OpenAI刚刚教会GPT-5.1人情世故的同一天，一款2.4万亿的国产大模型证明了，AI不仅能懂人情，还能更好地理解世界。

类别

资源

联系我们