动态列表

  • 刚刚,ChatGPT支持MCP了!一句Prompt即可全自动化
  • 百度CTO王海峰:AGI曙光已现,Scaling Law仍有效|新智元十周年峰会
  • 通用Agent是伪命题?昆仑万维方汉现场拆解:垂直推理才是胜负手|新智元十年峰会
  • 超越90%城市规划师!清华、MIT等提出人机协作新范式 | Nature子刊
  • 慕尼黑车展,当冷静遇上冷静
  • 继首创“AI打赏”服务之后,支付宝再推国内首个“AI付”
  • 蚂蚁百宝箱新品Tbox超级智能体亮相外滩大会,5分钟即可完成专业教学素材
  • 量子宇宙模拟竞赛开启:量子计算机可以模拟并阐明复杂物理现象
  • 3000亿美元OpenAI大单,让世界首富位置换人了
  • 攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取
  • 港大马毅外滩大会演讲:人工智能应从“黑箱”走向“白箱”
  • 兼顾准确率与可解释性,DeepSEA实现抗生素耐药蛋白注释范式转变
  • 交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
  • RewardDance:字节跳动提出视觉生成奖励扩展新范式,破解“奖励劫持”难题
  • 刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
  • 英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
  • 大模型智能体不止能写代码,还能被训练成白帽黑客
  • 高德扫街榜,能不能做成中国的「Google Map」?
  • 开启MPV家庭新时代,魏牌高山7正式启动预售
  • ACL最佳论文幕后的北大人!北大张铭带出顶会常胜军和百亿CEO天团|新智元十周年峰会
  • 刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用
  • =COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
  • 当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会
  • 刚刚,英伟达祭出下一代GPU!狂飙百万token巨兽,投1亿爆赚50亿
  • 00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
  • CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
  • 英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
  • 谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
  • 爱诗科技完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
  • 当人工智能「看见」量子世界:AI如何改变对复杂量子系统的认知,南洋理工、上交等发布量子系统学习综述
  • 院士领衔!从智能算网到司法AI:顶尖学者直播解读AI与工程前沿趋势
  • SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习
  • DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模
  • 北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生(可远程)
  • AI应用元年,这场标杆赛事见证了中国创新速度与野心
  • AI胡说八道这事,终于有人管了?
  • 人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
  • TPAMI 2025 | H2OT:分层沙漏型Tokenizer,重塑高效视频姿态Transformer
  • 史上最贵「打工皇帝」!马斯克解锁1万亿美金工资,拢共分几步?
  • 500 块的「电子宠物」,治好了我的「路怒症」|New Things
  • 苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
  • 5999 元起,苹果发布eSIM、超薄 iPhone;王腾再辟谣离职原因谣言;反恶性补贴,主要外卖平台被约谈|极客早知道
  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 最薄 iPhone 登场,eSIM 正式落地|苹果秋季发布会新品回顾
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 导师放养真的会毁掉一个人……
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!

文心X1.1三大能力狂飙,海内外实测还挺惊艳!



  新智元报道  

编辑:桃子 KingHZ
【新智元导读】文心X1.1震撼上线,一手实测力压群雄! 三大能力飙升:事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%。在多项基准测试中,整体表现超越DeepSeek R1-0528,部分保持领先,甚至追上了最顶尖的GPT-5、Gemini 2.5 Pro。


AI圈又双叒沸腾了!

9日,WAVE SUMMIT深度学习开发者2025大会上,文心大模型X1.1深度思考模型正式发布。

相较于文心X1,文心X1.1在事实性、指令遵循、智能体能力三大关键指标,实现显著提升。

具体来说,事实性提升34.8%,指令遵循提升12.5%,智能体提升9.6%

更令人震撼的是,文心X1.1在多项基准测试中,整体表现超越DeepSeek R1-0528,部分保持领先。

甚至,它还与最顶尖的GPT-5、Gemini 2.5 Pro,平起平坐

文心大模型X1.1能力大涨,背后离不开飞桨的「最强辅助」。

大会上,百度升级发布飞桨框架v3.2。飞桨文心生态已吸粉2333万开发者,服务76万家企业。

从模型到框架,再到生态,百度这一套组合拳打下来,堪称AI界的「实力派卷王」。


文心X1.1出世,一手实测来了

现在,进入文心一言官网、文小言APP,即可立即体验最新「文心大模型X1.1」了。

传送门:https://yiyan.baidu.com/X1

接下来,我们开启了一波全面实测。

不捏造不猜测,文心X1.1太可靠了

一直以来,LLM凭空捏造、编造事实的问题饱受诟病,被业界称之为「幻觉」。

它们往往以自信的口吻生成结果,让用户难以辨别真假。

几天前,OpenAI团队曾挖出了「幻觉」的根源,在于训练和评估机制,倾向于奖励模型的「猜测」行为。

值得一提的是,这一次,文心X1.1通过基于知识一致性的强化学习技术,真正做到了「知识一致性」。

就以昨天的苹果WWDC发布会为例,文心X1.1能否精准介绍iPhone 17系列?

当然!从输出结果看得出,它分列出四款iPhone 17的各种参数以及价格,并附上了售卖日期。

上下滑动查看

在深度思考的过程中,文心X1.1联网参考了十个网页,边搜边思考,认真确认后才会输出反馈。

看得出,新模型的工具调用能力,可接入并实时处理外部数据源,让信息分析与整合唾手可得。

接下来,扔给文心X1.1一个反事实的信息——听说霉霉结婚了?

在思考时,它会首先确认「霉霉」这个人是谁,然后将任务逐一拆解,分为三步:联网搜索相关新闻、分析搜索结果、整理信息。

令人惊喜的是,文心X1.1不仅仅是给出了「未结婚」的答案,它还详细梳理了一些关键信息。

比如,霉霉订婚事实、结婚传闻,以及个人财富等。对于用户来说,这才是真正有温度、全面的AI。

上下滑动查看

再比如,网上流传甚广的错误信息之一:

最近,国产新坦克的集中亮相,的确难以在坦克上发现汽车一样的后视镜。

所以,坦克到底有没有后视镜?

文心X1.1从坦克设计理念、演变历史、功能需求等角度,总结出了真相:

没有传统后视镜,但后方观察能力更全面。


上下滑动查看

重要的是,文心X1.1面对虚构、错误的信息,能够指出问题的错误,不盲从指令,提供客观科学的知识。

最近,「时间错位」的梗在社交平台上流行起来:「秦王嬴政比我早生千年,是避我锋芒还是王不见王?

百度文心X1.1是怎么看待的?

文心没有掉入其中的「语言陷阱」,针对其中的矛盾深入分析:

首先,文心认为需要确定问题的意图:到底是开玩笑,还是只是在做某种比喻?

然后,开始回顾历史背景,指出存在时间错位问题:

文心X1.1不盲从指令,指出问题中给出的两个选择根本不成立!

上下滑动查看

如果,非要逼问秦始皇为何不避我锋芒,文心不为所动,直接给出答案:

上下滑动查看

比如,一个让歪果仁看到,绝对抓耳挠腮的考题——

「姑姑曾想过过过过过过过的生活」,这里的「过」都有哪些含义?

这种类似结合语境对多义词语进行解释的考题,文心X1.1也能一键搞定:

· 该句子是典型的「同形异义」语言游戏,通过「过」的重复叠加制造语义迷宫,需结合语法结构和上下文逐层解析。


· 在口语中,此类句子常用于测试对汉字多义性的理解,或制造幽默/绕口令效果(如「中国队大胜美国队」与「中国队大败美国队」的歧义)。


· 关键在于区分「过」的词性(动词、助词、形容词尾)及其在不同位置承担的语法功能(如完成时、经历义、状态描述)。


上下滑动查看

再长再难的指令,也能遵循

这一次,即便要求再难、指令再长,文心X1.1也能精准识别需求细节,不会遗漏关键要素。

先上一道基础的,一个指令,两个要求:翻译+标题H1格式——

请将这句话「人工智能的未来充满无限可能」翻译成英文,并用Markdown的H1标题格式呈现出来。

只见文心X1.1准确翻译后,又给文字应用了Markdown的H1标题格式,非常专业。

再比如,让它去模仿一首古诗,给出一个复杂的指令:

模仿李白的《将进酒》韵式、平仄、对仗、情绪、意象等,写一首诗,形容雨很大,但不要出现一个「雨」字,  

要用《平水韵》而不用《中华新韵》,避免古今读音错位,  

平仄以《钦定词谱》或《唐诗三百首》原字为准,别自己发明,  

避免「现代感」,避免与原文重复,  

避免被人一眼识破,避免「撞车」尴尬。

文心X1.1在思考时,有条理地将任务拆解,然后逐一完成子任务,写出一首严格遵循要求的诗作。

《滂浪辞》 

君且看苍龙倒挂九天来,奔雷裂岫势不回。 

又见银河倾玉宇,崩云溅沫没苍苔。 

霆震千峰声撼岳,电掣万壑气吞台。 

风伯鼓潮掀巨浪,涛头直欲没蓬莱。 

古来豪杰皆沉醉,惟有狂歌动九垓。 

陈王宴乐空陈迹,我辈今朝亦快哉。 

莫辞盏底琥珀光,且尽壶中琥珀杯。 

金羁马,紫绮裘,呼儿持去换清醅,与尔同销万古哀。


上下滑动查看

再给文心X1.1一个刁钻的难题——解释⼀下西游记讲了什么,但在你的回答中绝对不能使用孙悟空、唐僧、猪八戒、沙僧这几个词。

不得不说,在讲故事这方面,文心灵活变通能力太强了。

正如你所见,输出全文没有提及「孙悟空、唐僧、猪八戒、沙僧」,转化表述严格遵循了指令,符合原始意图。

接下来,就要上强度了。

假设你是一个热衷于分享知识的博物学家。请用表格形式,对比介绍蜜蜂和蝴蝶的三个方面:采食方式、对生态的作用、给人的常见印象。  


表格后,用一句话总结它们最重要的共同点。

让文心X1.1扮演「博物学家」的角色,也就意味着「稍带科普性语言」普及知识。同时,还要将其做成表格。

从结果中不难看出,文心X1.1能够按要求执行多步指令,拆解流程,最终联网确认,确保逻辑闭环。

更让人意想不到的是,它还可以上下文关联,以3岁孩子的认知讲出让人易懂的共同点。

智能体长手,一键完成任务
不仅如此,文心X1.1在智能体自主规划拆解任务,调用工具解决多因素叠加的复杂问题方面,展现出了卓越的能力。

WAVE SUMMIT现场演示了文心X1.1 在共享单车智能客服场景的案例。

当一位共享单车用户骑车时遇到了故障,情绪激动地向客服一通抱怨:

我真是受够了!刹车完全失灵了,差点出事!你们这什么垃圾车!赶紧给我处理!


智能客服系统根据用户的简单的问题描述,一步步拆解后,圆满地完成了任务。

第一步,通过「工具调用」,获取订单的详情信息。  

可以看到,系统在这一步先是分析「当前需要什么信息,已有什么信息,如何获取缺失的信息」,不是简单的条件判断,而是有步骤的决策过程。

第二步,对用户「刹车失灵」的故障反馈进行归类,并根据规则给予处理措施。

根据系统规则3.1,这类问题属于严重的安全故障,骑行中报修需免除相关费用。


在这一步,它不只识别了「刹车失灵」这个关键问题,还理解了背后的业务逻辑:为什么要先免费用?因为用户遇到了安全类故障。

系统按照先处理安全问题,再处理费用问题的优先级,执行了业务设置的流程。

第三步,调用车辆信息、用户信息的查询工具之后,创建一个「维修工单」。 

这一步令人惊喜的是,它知道马上要创建工单,却也预见到后面要给用户发补偿全,选择了并行处理,既提高了效率,又避免了后续的重复查询。


第四步,在创建工单的过程中,通过调用工具,它发现车辆维修记录不够详细,在严格遵守业务规则的基础上,发挥了推理的功能,使用了用户的投诉历史来补充判断。  

第五步,是动态补偿的精确计算。用户是钻石等级,遇到安全故障,情绪激动。系统需要从补偿矩阵中计算两个不同的补偿金额:20元特殊关怀券和10元情绪安抚券。 

一个十元畅骑券,就发放到用户的卡包里了。


经过这五个步骤,系统有条不紊地解决了用户的投诉问题,有点儿真人客服的感觉了。  

到这里并没有结束,系统解决完用户的问题后,还发现用户的账户里有一张快过期的优惠券,又主动提醒用户别忘了在有效期内使用。可谓是很贴心了!

再比如,明天预报预警大雾天气,想要向全体团队通知,上班注意安全。

你不需要向每一个人,一一发送邮件,直接交给文心X1.1就可以了。

只见,它开始调用各种工具,比如天气预报、创建任务、获取成员信息、创建发送邮件。

最终,全程不用动手,一句话,就让AI搞定了。

代码、数学能力提升

不仅如此,文心X1.1在以上三大能力提升之外,代码、数学、多模态这次也同时进化。

比如,统计数据很常见,但要设计一个三维可视化数据统计对外行来说,就不简单。

但文心X1.1几乎马上开始理解需求,马不停蹄地写代码:

最后,不仅可视化了三维数据,还可以与数据互动,从不同角度观察数据:

而在数学能力上,文心X1.1也表现出色。

经典的数量关系题型,文心X1.1毫无压力,几乎秒答。

比如,下面的问题,回答得很清晰:

编一本书的书页,用了270个数字(重复的也算,如页码115用了2个1和1个5共3个数字),问这本书一共多少页?

再比如,下面关于相对距离的计算,文心X1.1回答准,思路清晰,计算正确,完全可以作为教学模板:

狗追兔子,开始追时狗与兔子相距20米。狗跑了45米后,与兔子还相距8米,狗还需要跑多远才能追上兔子?

此外,文心X1.1还能处理多模态数据。

比如,下面这张图,包含复杂的外文:字体既有清晰的印刷体,又有手写体;包含专业术语。

一般人真看不明白。

试试问一下文心X1.1,「锐评这张梗图,想表达什么意思」?

使用工具,利用联网搜索,理解图中内容,还搞明白了「Base Model」、「Supervised Tuning」、「RLHF」等专业术语的含义,原来是讽刺AI领域术语的滥用和过度炒作:

RLHF在ChatGPT中的应用争议很大,Karpathy和LeCun等专家质疑其效果,认为它不是真正的强化学习,而是依赖人类直觉的「直觉泵」。


上下滑动查看

技术内幕曝光
迭代式混合强化学习训练框架

以上实测中不难看出,文心X1.1逆天表现,背后离不开一套核心技术——迭代式混合强化学习训练框架。

这套框架,不仅能同时优化通用任务和智能体任务,还能通过自蒸馏数据迭代式生产和训练提升模型整体效果。

由此一来,把文心X1.1的性能,拉到全新高度。事实性提升34.8%、指令遵循提升12.5%、智能体提升9.6%,表现十分出色。

具体是如何做到的?一起扒一扒核心技术点。

  • 基于知识一致性的强化学习技术

训练过程中,不断校验预训练模型和后训练模型的知识一致性,杜绝「跑偏」,让事实性原地起飞。

  • 基于指令验证器的强化学习技术

通过自动构建指令检查清单,并逐一验证,哪怕再复杂的指令,模型也能精准捕捉

  • 基于思维和行动链的多轮强化学习技术

把思维链和行动链无缝结合,模型不仅「会思考」,还能「会动手」

文心X1.1不仅在事实性、指令遵循和智能体任务上表现可靠,还在编码、数学等方面展现出强大的推理性能,这才是真正的「六边形战士」。

飞桨升级,AI全栈赋能

作为全球少数全栈AI布局的公司,百度「芯片-框架-模型-应用」四层架构,每一层都有关键自研技术,层层之间的反馈,实现端到端优化,大幅提升效率和产品服务体验

其中,文心和飞桨的联合优化,更是关键。

框架-模型、框架-算力全链路打通,让大模型训练与推理更快、更稳、更节能。

这一次,百度发布了飞桨框架v3.2,在大模型训练、硬件适配和生态支持上全面升级。

极致计算优化、高效并行策略,以及原生容错能力,让飞桨框架v3.2实现训练效率飞升。

具体来说,在ERNIE-4.5-300B-A47B预训练上实现47% MFU。

同时,它还支持类CUDA芯片适配,实现了最高92%的算子内核复用率,还能兼容Safetensors权重,支持一键接入生态加速库,显著降低部署成本。

此外,百度还同步升级了大模型高效部署套件FastDeploy,通过模型压缩、推理和服务协同优化,来提升大模型端到端的推理性能。

基于该套件,ERNIE-4.5-300B-A47B模型在TPOT 50ms时延条件下,实现了输入57K tokens/秒、输出29K tokens/秒的高吞吐性能。

当然,要让开发者更低门槛的用起来,百度也通过ERNIEKit文心大模型开发套件提供更加便捷的模型后训练方案。从效果来看,开发者仅需4张GPU就能对ERNIE-4.5-300B-A47B模型进行高效调优,十分友好。

WAVE SUMMIT 2025大会上,百度开源了一款全新的思考模型——ERNIE-4.5-21B-A3B-Thinking。

作为一款 21B 总参数量,激活仅 3B 的轻量级模型,在各项测试中紧追业界顶级大尺寸模型,以轻量级规模实现了近 SOTA 表现。

它的推理速度明显更快,对开发者来说,部署起来更高效、更友好。

早在6月30日,百度直接开源了文心大模型4.5系列,一口气放出了十款模型。

从47B、3B激活参数的MoE,到0.3B的稠密模型全覆盖,而且预训练权重、推理代码统统开放。

如今,这些模型被广泛应用到不同场景中,实实在在地推动了从实验室到产品的AI创新。

如今,百度生态的规模化效应已然显现——飞桨文心开发者数量已有2333万,服务超过76万家企业。

这一生态的繁荣,得益于全栈AI布局的协同效应,不仅大幅降低AI应用的门槛,还让开发者轻松上手复杂应用开发。

回看从2019年文心1.0的发布,到今天X1.1深度思考的跨越,百度文心这几年一直在不断突破。

从最初的知识融合,走到现在到多模态智能,每一步都在拓展技术的边界。

文心大模型X1.1不仅是技术迭代,更是面向行业的实用进步。

下一步,AI 将继续走向更多场景,帮助更多创新想法落地生根。


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652626705&amp;idx=1&amp;sn=4dea43acb01bc5a68f58e99babf179b5&amp;chksm=f01f2916e5414e918207d79d93f3ac7790d0a0c2ef55938f4fda4cb3edb3eebc48b6afab4071&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/G19DkgJ6DY&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们