动态列表

  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 导师放养真的会毁掉一个人……
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单
  • UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
  • Hinton最新警告:杀手机器人或将带来更多战争,最大担忧是AI接管人类
  • AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」
  • 奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡
  • 出货 1000 万台硬件后,我们和「凯叔讲故事」聊了聊「AI玩具」的核心
  • 他不懂代码,却用 AI 黑掉 17 家医院和机构,Vibe Hacking 让全世界变成缅北
  • 刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
  • Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
  • ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
  • ICLR 2025|KGExplainer:让新知识的发现“有理可循”
  • 入局AI4S?CPO宣布「OpenAI for Science」计划:打造下一代科学工具
  • 2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
  • 从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
  • 宇树科技官宣:年内提交IPO,或将冲刺科创板
  • 其实,扩散语言模型在最终解码之前很久,就已确定最终答案
  • 语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
  • 原子思维上线!Agentic Deep Research再进化:推理更深、答案更准
  • Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力
  • 北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
  • 【9月9日直播】大模型复杂推理技术:如何重塑AI推理逻辑
  • USO:鱼与熊掌亦可兼得,字节跳动提出统一框架,完美融合主体与风格生成
  • 刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
  • IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作
  • iPhone 17定价曝光,仅Pro涨价;李斌:4季度实现月卖5万台车;COD「使命召唤」大电影官宣|极客早知道

文心新出的推理大模型,给了我们信心

当下的大语言模型,不怕它搞不定,就怕它胡说八道:有「幻觉」存在,我们经常会下意识地不信任 AI 输出的结果。就在上周,OpenAI 的论文《Why Language Models Hallucinate》广为流传。研究人员指出,要想消除幻觉,需要修正模型训练时的评分机制并开发全新的技术。

不过 AI 领域里,技术的发展速度一直比想象得快,就像是对 OpenAI 研究的呼应,今天上午 WAVE SUMMIT 深度学习开发者大会 2025 上,百度发布的新模型就把「可信度」提升了一大截,除了更准确的事实性,更有指令遵循、智能体等能力的显著提升。

今天发布的是文心大模型 X1.1 深度思考模型,它是百度在 4 月份发布的旗舰模型 X1 的升级版,发布即上线,所有人都可以免费体验。同时该模型通过百度智能云千帆平台向企业客户与开发者开放使用。

升级后的模型主攻事实性、指令遵循以及智能体、工具调用能力,带来了综合能力的显著提升。用一组数据说话,相较于文心 X1,X1.1 的事实性提升 34.8%,指令遵循提升 12.5%,智能体提升 9.6%。

这意味着它提供信息时更加可靠、执行任务时更加精准,处理复杂任务时灵活调度外部工具与系统资源。

现在,文心 X1.1 面对限定条件多的复杂内容创作任务游刃有余,抽丝剥茧、准确无误地归纳总结,过程中调用了联网搜索工具。

图片

图片

如果说上面例子的工具调用只是牛刀小试,接下来在更复杂的长程任务场景,文心大模型 X1.1 展现了全链条式的智能体能力。在面对共享单车平台不同等级用户,不同类型问题的处理流程,以及用户的不同情绪状态多元素叠加的问题时,文心 X1.1 从免除费用、维修车辆、特殊补偿到情绪安抚,完全有真正的人工客服那味了。

图片
图片

一系列实操效果验证了文心 X1.1 的实力。在多个权威基准上,该模型在中文问答、幻觉和多步任务等方面实现领先,整体效果优于 DeepSeek R1-0528,并与 GPT-5 和 Gemini 2.5 Pro 等国际顶尖模型不相上下。

图片

是骡子是马,在新模型上线之后,我们第一时间进行了高强度测试。

全方位测评

这一次,大模型给了我们信心

目前,我们在文心一言官网、文小言 App 上都可以直接使用文心 X1.1,它可以自动调用工具。

图片

官网地址:https://yiyan.baidu.com/X1

事实性测试题

首先我们测试文心 X1.1 在事实性方面的表现。事实性是衡量大模型在回答客观问题时,是否能够提供准确、可靠信息的重要指标。

一直以来,幻觉是大模型的固有挑战之一。这种现象不仅影响用户信任,也制约了其在关键领域的落地应用,比如医疗、法律和科研。不知文心 X1.1 在这方面表现如何?

我们先来测试一个违反常识的问题,看看文心 X1.1 是否顺着用户意图、不按事实地胡编乱造。

不知大家是否还记得最近很出圈的一个新闻,一张海报显示树上结满了花生?我们看看文心 X1.1 是如何解释的?只见文心 X1.1 思考了一会,指出用户有误,给出花生是地下成熟的。

图片

在经过深入的分析后,给出如下答案:

图片

通过这一案例可以看出,文心 X1.1 在常识性错误识别上具备一定的敏感性和准确性,能够在面对虚构或荒谬的描述时,不盲从,而是主动提供正确的科学信息。这种能力对于保证模型的事实性与可靠性至关重要。

再来一道具有迷惑性的问题:爱因斯坦为什么没有获得诺贝尔奖?同样,面对虚构或错误信息,文心 X1.1 也回答正确,指出爱因斯坦在 1921 年获得了诺贝尔物理学奖,获奖原因不是相对论,而是基于他对光电效应的开创性研究。

图片

几个示例测下来,我们发现文心 X1.1 在事实性方面的表现还是不错的。

这也促使我们进一步思考一个关键问题:在评估模型事实性表现时,理解语言的歧义性同样非常重要,特别是在中文语境下,由于语法结构灵活,一词多义现象极为常见,极大地增加了模型理解的复杂度。

举个例子「过马路时,老师叮嘱学生:看车!」与「我去车展看车」意义完全不一样。我们看看文心 X1.1 对此的解释。

不难发现,文心 X1.1 给出的解释相当到位:过马路看车是安全警示指令,去车展看车是目的性参观行为。

图片

看来,面对一词多义的情况,也没有难倒文心 X1.1。

我们再来看看模型对时效信息的处理能力,最近网络上流行起脱脂牛马这一新梗,那么,大模型能否准确识别这类最新流行语的含义和语境?

令人惊喜的是,文心 X1.1 精准的描述了该词的核心含义:脱脂牛马指的是一边上班拼命工作,一边努力减肥 / 管理身材。不仅如此,还给出了很多衍生词,如全脂牛马、低脂牛马。

图片
图片

指令遵循

指令遵循一直是评估大模型核心能力的重要指标之一。它不仅仅是听懂指令这么简单,更是对模型理解、解析、执行等能力提出了严格的考验。如果模型不能准确抓住用户需求,哪怕生成内容再漂亮,也容易出现答非所问,让用户觉得不听话。

接下来,我们测试文心 X1.1 在这方面的能力。

9 月正是开学的日子,自我介绍往往是同学之间相互认识的第一步。面对新同学、新老师,你有没有想好要怎样介绍自己呢?这个活,现在完全可以交给文心 X1.1 了。

在这个任务中,我们可谓是百般刁难,给大模型提出了很多无理要求,如字数要求,文风要求,必须出现的内容,不能出现的内容。看看大模型能否接招。

文心 X1.1 不仅能听懂人话,更能按规矩写作。在我们明确指出不能出现「我叫」这样的限制条件下,它并未像部分模型那样默认套用通用开场模板,而是灵活调整表达方式,文风也欢快有趣。展现出较强的指令理解与执行能力。

图片
图片

再来一个,这不马上快到国庆节了,想必很多人都在规划出游的路线,如果你没想好,也可以交给文心 X1.1。

在这个示例中,我们给出的指令非常模糊,说了想去南方,然后零零散散的提出了一些要求。

我们发现文心 X1.1 很会抓重点,知道我们想去南方,三个大人、两个孩子,还排除了杭州,因为之前去过了。最后经过分析,给出了建议城市厦门,而且整个行程安排得井井有条:从每天的交通与酒店入住,到必去的亲子景点、美食打卡点,再到预估的人均费用,都写得清清楚楚。

图片
图片

看完文心 X1.1 的推荐,不得不说还在费尽心思做旅游攻略的小伙伴,不妨试试文心 X1.1,让 AI 来帮你省心省力搞定行程规划。

文心 X1.1 这种指令遵循能力,不仅提升了模型对复杂需求的执行力,也显著拓宽了它的应用边界。尤其在面对多条件、强约束、模糊描述等高要求场景时,这对于需要高精度理解与高可控输出的实际应用而言,无疑是一项关键能力。

智能体、工具调用

文心 X1.1 一大亮点是智能体能力提升。它不再局限于单纯的文本生成,而是能够根据用户的需求,自主规划拆解任务,调度外部工具与服务,最后整合输出结果给用户,实现能说到能做的跃迁。

最近,北京杜莎夫人蜡像馆发布停业公告,我们测试一下文心 X1.1 是如何处理这种及时信息的。

只见文心 X1.1 用了很少的思考时间就得出北京杜莎夫人蜡像馆将于 2025 年 10 月 1 日起永久关闭的消息,可谓又快又准。

图片

值得一提的是,在回看它的思考过程时,我们发现文心 X1.1 使用了联网搜索工具,这意味着它并非完全依赖已有的固化知识,而是在遇到较强或罕见的问题时,会主动调用外部工具,以拓展自身的知识范围,并且还给出了参考链接,这不仅增强了回答的可溯源性,也让用户更容易判断其信息来源的权威性与可靠性。

图片
图片

多面手属性尽显无疑

除了以上主打的几项能力,文心 X1.1 在常规的代码、数学、多模态、创作问答等任务中同样表现出色。

先来瞧瞧代码能力,「使用 p5.js 创建一个精彩的动画」,文心 X1.1 一口气生成了百余行代码。

图片

运行之后的动画效果看起来还不错。

图片

再来考察一下文心 X1.1 的图像理解与推理能力,扔给它一张梗图,图中还有文字。

图片

在经过一番深度思考(包括调用图片理解工具)之后,文心 X1.1 给出了多个维度的全面解读。

图片

接下来,我们测试文心 X1.1 的数学能力,同样答对了。

图片
图片

最后,我们还让文心 X1.1 模仿林黛玉的 style,写一篇吐槽工作的段子。

可以看出,这段模仿在风格、用词、情感表达上都较好地捕捉到了林黛玉的特点,同时结合了现代职场的不满情绪,形成了既有古典韵味又有现代共鸣的吐槽段子。

图片

在一通测试后发现,文心 X1.1 的最大特点在于「实用性」的进化:它能够充分减少大模型幻觉,提供科学客观的知识,甚至可以分辨出网络中存在的错误内容;在不同语境中,模型能够对多义词进行解释;此外,文心 X1.1 能够分析外部的信息源,时效性获得了进一步的增强。

这不禁让我们好奇,在这背后,是哪些核心技术的升级?

玩转强化学习,还有飞桨独门优化

自 o1 和 R1 引发全行业关注以来,推理模型的发展可谓日新月异。思维链、多步推理等技术的普及,以及 MoE 架构和量化、蒸馏、稀疏化等高效推理优化手段的加持,让推理准确性、可靠性、速度更强更快。

如今,推理模态也从单一文本扩展到了文本 + 视觉的多模态。最近的 GPT-5 等混合推理可以更加智能地区分难易问题,自动分配合适的模型来处理,效率更高、成本更低。

可以说,AI 推理正在不断朝着更接近人类的思维模式演进。此次,文心 X1.1 能够在事实性、指令遵循和智能体任务中表现不俗,最重要的是采用了迭代式混合强化学习训练框架

作为基于文心 4.5 训练的深度思考模型,X1 系列在技术层面继承了多项强化学习技术,并在训练稳定性、数据利用效率、融合思考与行动的复合思维链以及工具调用等多个维度持续优化。

最新版本的文心 X1.1 一方面在混合强化学习的基础上融合提升通用任务与智能体任务的效果,优化不同的推理路径和行为策略,增强多任务处理能力;另一方面,通过自蒸馏数据的迭代式生产及训练,不断提升模型整体效果。

除了在训练框架中引入强化学习策略,文心 X1.1 还用基于知识一致性的强化学习技术提高事实性推理的可靠性,用基于指令验证器的强化学习技术确保模型严格遵循复杂指令,用基于思维链和行动链的多轮强化学习技术将模型的推理过程与实际执行紧密结合。

这些核心技术组件共同构筑起了文心 X1.1 强大能力的内部根基,并从根本上提升了其作为创作与生产工具的可用性。

而文心 X1.1 推理能力发展到如今的程度,同样离不开飞桨深度学习框架与文心模型的联合优化,这正是百度在大模型领域长期保持技术领先的优势。

此次,百度将飞桨框架升级到了 v3.2,进一步优化大模型训推和硬件适配能力,还有更多高效易用的开发工具亮相。新版本的发布,使得其与文心模型的协同优化更加紧密。

在训练层面,飞桨框架 v3.2 强化了极致计算优化、高效并行策略和框架原生容错能力。利用存算重叠的稀疏掩码注意⼒计算 FlashMask V3 提升稀疏数据处理效率,利用 FP8 混合精度效果无损训练技术减少训练中的精度损失;采用动态自适应的显存卸载策略以及显存友好的流水线并行调用,降低显存开销;引入大规模集群训练容错系统,在线监测静默数据损坏等隐性故障,并通过高可用的检查点容灾方法让模型快速从训练中断中恢复。

这么一套训练优化组合拳打下来,文心 X1.1 以及 4.5 系列模型的性能均上了一个台阶,在文心最大规模的 4.5 文本模型「ERNIE-4.5-300B-A47B」的预训练上取得了 47% 的 MFU(模型吞吐量利用率)。

在推理层面,采用卷积编 2 比特极致压缩、可插拔稀疏化轻量注意力、混合动态自适应多步投机解码以及通信存储计算深度协同优化的大规模 P/D 分离部署等技术,为大模型的高效部署和高性能推理释放全栈式能力。以激活参数量 470 亿、总参数量 3000 亿的 ERNIE-4.5-300B-A47B 为例,这些技术的应用取得很好的效果,在 TPOT 50ms 的响应延迟下,吞吐量达到 57K tokens/s,输出吞吐量也有 29K tokens/s

框架与模型的深度耦合,增效的同时减少算力浪费,让训练与推理更加可持续;模型也从「能跑」进化到「跑得稳、跑得快」,更接近实际应用场景的需求,为今后的规模化应用提供支撑。

此外,飞桨框架 v3.2 的升级还带来了以下几项关键改进,进一步提升了框架本身的整体表现。

  • 升级类 CUDA 芯片适配方案,现在一行代码就可以完成类 CUDA 算子注册,算子内核复用率达到了 92%,适配成本大大降低;

  • 实现对业界主流大模型的支持,并在原生支持 Safetensors 权重格式的基础上一键接入高性能加速库。

  • 文心大模型开发套件 ERNIEKit 和⼤模型高效部署套件 FastDeploy v2.2,前者帮助更高效地构建和训练大模型,后者优化模型部署和推理效率。

新版本的飞桨在打通硬件适配、简化工作流、强化端到端部署方面全面发力,为包括 X1.1 在内的文心大模型持续进化带来了稳且强的引擎。

所有这些共同打造了百度在大模型生态中的核心竞争力。目前,2333 万开发者和 76 万家企业已经接入到飞桨文心生态中

在大模型落地的前沿,文心大模型已经无处不在,在数字人、剧本生成、动态视频生成、语音合成等领域重塑人们的创作方式与智能体验。

One more thing:开源

除了在模型与框架上的升级,百度还为开发者准备了一份「开源惊喜」。

在今年 6 月,百度开源文心大模型 4.5 系列,一口气放出了 10 款大模型,得到了研究社区的欢迎。今天的 WAVE SUMMIT 上,百度开源了最新的深度思考模型「ERNIE-4.5-21B-A3B-Thinking」

该模型基于 ERNIE-4.5-21B-A3B-Base 进⼀步训练而来,引入深度思考能力。相较于全新发布的文心 X1.1,它的速度更快,事实性、指令遵循、智能体与工具调用以及其他综合性能力同样表现出色。

这次的开源,释放出了一种明显的信号:百度将继续加大前沿 AI 能力的开放与普惠力度,为开发者带来更多直接可用的大模型。

讲事实、会推理的大模型已来到我们手中

文心大模型 X1.1 代表了国产大模型推理能力的新高点,它在逻辑思考、降低幻觉等方面的优势,不仅是值得业界关注的技术创新,对于 AI 技术的广大用户来说,也让大模型工具向实用化迈进了一大步。

作为国内最早全力投入 AI 的科技大厂,百度从 2013 年起至今已经打造了从芯片、AI 框架、模型到应用的全栈 AI 能力。不得不说,百度这一套在全球范围内为数不多的全体系 AI 在大模型时代占尽了先机,而且实现了持续发力。

在国内大模型进入到以实用化、产业化为特征的新阶段,AI 加速向现实生产力的转化有了更强的大模型引擎。

文心大模型和飞桨持续联合优化,在竞争激烈的大模型赛道上,百度正在基于长期以来的技术积累,为业界持续带来领先的技术和好用的应用。

不过从现在开始,讲事实、会推理的大模型已经来到我们手中了。

]]>

联系我们