动态列表

  • 刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月
  • 一夜刷屏!27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
  • 王小川押注下个十年:为人类造医生,为生命建模型|新智元十周年峰会
  • 一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文推理利器」
  • AI意识「觉醒」!图灵得主Bengio重磅发声:AI正接近人类意识临界点
  • 如何为LLM智能体编写工具?Anthropic官方教程来了
  • 腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破
  • Adam的Update RMS为何总是0.2?噪声模拟到理论近似全讲透
  • 北京/上海内推 | 小红书智能审核算法团队招聘NLP/多模态内容理解算法工程师/实习生
  • 「做笔记」的RAG来了!告别噪声与骨牌效应,EviNote-RAG稳住长链推理
  • KDD 2025最佳论文亚军:参数不同还能共训?异构知识迁移框架HtFLlib全面开源
  • 我苦寻的「库乐队」,叫 MiniMax Music 1.5
  • Science Advances | AI for Earth:聆听海洋的「脉搏」,新一代AI大模型精准预测十年气候脉动
  • 外滩大会嘉宾锐评AGI即将“撞墙”,正在向数字与物理世界进化
  • 港科大 X MiniMax:高质量数据、小模型挑战复杂网络搜索难题
  • 为了网罗 AI 创新者,上海搞了场万人科创大赛
  • 蚂蚁集团数字蚂力首批专家级“AI数字员工团队”亮相外滩大会
  • “IIFAA数字卡包”上线支付宝:目前已支持多类身份申领
  • 蚂蚁集团加码AGI等青年人才培育,2025蚂蚁InTech奖在外滩大会揭晓
  • 重塑药物研发,哈佛医学院等开源全新AI模型,用「图神经网络」破解疾病驱动因素多元难题
  • 全球最懂智能体的创业者齐聚外滩大会,未来三年怎么做聊透了
  • 马上上岛|云栖大会「新世代 AI 创想岛」即将揭幕
  • ICRA 2025 | TANGO:机器人告别3D地图,仅靠RGB摄像头实现零样本长距离导航
  • 挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
  • 姚顺雨离职OpenAI,「亿元入职腾讯」传闻引爆AI圈,鹅厂辟谣了
  • 全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
  • 告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
  • 西贝贾国龙称一定起诉罗永浩;支付宝推出「AI 付」服务;iPhone 17 京东、天猫预订量比上代大增|极客早知道
  • 刚刚,ChatGPT支持MCP了!一句Prompt即可全自动化
  • 百度CTO王海峰:AGI曙光已现,Scaling Law仍有效|新智元十周年峰会
  • 通用Agent是伪命题?昆仑万维方汉现场拆解:垂直推理才是胜负手|新智元十年峰会
  • 文心X1.1三大能力狂飙,海内外实测还挺惊艳!
  • 超越90%城市规划师!清华、MIT等提出人机协作新范式 | Nature子刊
  • 慕尼黑车展,当冷静遇上冷静
  • 博士申请 | 新加坡国立大学计算机系卞亚涛老师招收2026 Fall人工智能全奖博士/博后
  • 别再狂刷CoT了!港科广DIGAI Lab发布隐式推理全景综述,静默思考开启新范式
  • 继首创“AI打赏”服务之后,支付宝再推国内首个“AI付”
  • 蚂蚁百宝箱新品Tbox超级智能体亮相外滩大会,5分钟即可完成专业教学素材
  • 量子宇宙模拟竞赛开启:量子计算机可以模拟并阐明复杂物理现象
  • 3000亿美元OpenAI大单,让世界首富位置换人了
  • 攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取
  • 港大马毅外滩大会演讲:人工智能应从“黑箱”走向“白箱”
  • 兼顾准确率与可解释性,DeepSEA实现抗生素耐药蛋白注释范式转变
  • 交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
  • RewardDance:字节跳动提出视觉生成奖励扩展新范式,破解“奖励劫持”难题
  • 刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
  • 英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
  • 大模型智能体不止能写代码,还能被训练成白帽黑客
  • 高德扫街榜,能不能做成中国的「Google Map」?
  • 开启MPV家庭新时代,魏牌高山7正式启动预售
  • ACL最佳论文幕后的北大人!北大张铭带出顶会常胜军和百亿CEO天团|新智元十周年峰会
  • 刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用
  • =COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
  • 当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会
  • 刚刚,英伟达祭出下一代GPU!狂飙百万token巨兽,投1亿爆赚50亿
  • 00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
  • CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
  • 英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
  • 谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
  • 爱诗科技完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
  • 当人工智能「看见」量子世界:AI如何改变对复杂量子系统的认知,南洋理工、上交等发布量子系统学习综述
  • DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模
  • 北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生(可远程)
  • SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习
  • 院士领衔!从智能算网到司法AI:顶尖学者直播解读AI与工程前沿趋势
  • AI应用元年,这场标杆赛事见证了中国创新速度与野心
  • AI胡说八道这事,终于有人管了?
  • 人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
  • TPAMI 2025 | H2OT:分层沙漏型Tokenizer,重塑高效视频姿态Transformer
  • 史上最贵「打工皇帝」!马斯克解锁1万亿美金工资,拢共分几步?
  • 500 块的「电子宠物」,治好了我的「路怒症」|New Things
  • 苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
  • 5999 元起,苹果发布eSIM、超薄 iPhone;王腾再辟谣离职原因谣言;反恶性补贴,主要外卖平台被约谈|极客早知道
  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 最薄 iPhone 登场,eSIM 正式落地|苹果秋季发布会新品回顾
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 导师放养真的会毁掉一个人……
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬

扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源

挑战自回归的扩散语言模型刚刚迎来了一个新里程碑:蚂蚁集团和人大联合团队用 20T 数据,从零训练出了业界首个原生 MoE 架构扩散语言模型 LLaDA-MoE。该模型虽然激活参数仅 1.4B,但性能可以比肩参数更多的自回归稠密模型 Qwen2.5-3B,而且推理速度更快。这为扩散语言模型的技术可行性提供了关键验证。 

万万没想到,做奥数题都能拿金牌的模型,却不会「倒着背诗」。

图片

说完全不会,倒也不严谨。因为如果允许模型「深度思考」,给诗的每个字都编上号,然后倒着排一下,这诗也能背出来。然而,这与人类倒背文本的方式并不一样 —— 人类记忆诗词时,往往不是逐字死记,而是以句子、意境、节奏为单位,而倒背时则是在脑中「反向调用」这些单元。

研究者们在 2023 年的一篇论文中就提到了这个现象,并将其命名为「Reversal Curse(反转诅咒)」。类似的表现还包括模型学习了「A is B(如巴黎是法国的首都)」之后,却无法自然地推出「B is A(如法国的首都是哪里)」。

这个问题之所以被拎出来讨论,是因为它会在一些需要模型同时理解前后文或逆向推理的场景中影响性能。

两年过去,AI 大模型能力突飞猛进,但这一问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归(AR)生成范式所造成的 —— 模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕捉 token 之间的双向依赖关系。

而且,自回归的天然缺陷还不止这一个 —— 长文本的计算成本高、生成速度慢是常被诟病的问题,而且它缺乏直接修正错误的能力,还会导致错误产生连锁反应。

面对这些问题,大量研究者选择继续改进自回归,但也有人另辟蹊径,尝试新的建模范式。

蚂蚁集团和中国人民大学高瓴人工智能学院组成的联合研究团队选择的就是后者,他们探索的语言建模方向是「扩散(diffusion)」。

在他们之前,也有不少研究者在这一方向发力。但今年 2 月份,他们首次将扩散语言模型(dLLM)扩展至 8B 参数规模,推出了性能对标 LLaMA 3 的 LLaDA 模型。
图片

                          自回归模型的生成方式。图片

                           LLaDA 模型的生成方式。

LLaDA 一经发布就引起了广泛关注,因为它通过非自回归的掩码扩散机制,首次在大规模语言模型中实现了与自回归模型相当的语言智能(如上下文学习、指令遵循、多轮对话等),挑战了「语言模型必须自回归」的主流认知。

在过去的几个月里,LLaDA 系列一直在快速迭代,衍生出了对齐能力更强的 LLaDA1.5、多模态版本的 LLaDA-V,以及刚刚在外滩大会上亮相的 LLaDA-MoE图片

其中,LLaDA-MoE 尤为引人注目。它由蚂蚁集团通用人工智能研究中心和人民大学联合研发,是业界首个从零训练的原生 MoE 架构扩散语言模型,在 20T 的数据上完成了训练,验证了此类模型大规模训练的可扩展性和稳定性。

在效果上,它不仅超过了此前发布的稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B,更是以 1.4B 激活参数比肩稠密自回归模型 Qwen2.5-3B,并保有数倍的推理速度优势。

可以说,LLaDA-MoE 是 dLLM 发展历程中的又一个重要里程碑。

据悉,该模型将在近期完全开源,以推动全球 AI 社区在扩散语言模型上的技术发展。

这个模型具体表现如何?背后有哪些技术?为什么这类模型能 work?在发布会之后的一次访谈中,蚂蚁通用人工智能研究中心主任蓝振忠、中国人民大学高瓴人工智能学院副教授李崇轩透露了很多细节,我们将在本文中一一介绍。图片

      左:李崇轩;右:蓝振忠。

LLaDA-MoE  业界首个从零训练的原生 MoE 架构扩散语言模型

经过 3 年多的迭代,dLLM 的发展已经进入成熟期。尤其在 LLaDA 模型发布之后,大家真正看到了这一类模型的可用性。很多研究已经把 LLaDA 作为基础或主干模型来进行进一步微调或扩展。

不过,要想提升模型能力上限,dLLM 同样必须进一步 scaling。而从自回归的发展路径来看,这一目标可以借助 MoE 来实现。

对于蚂蚁和人大的联合团队来说,这又是一条未知的路,因为现有的扩散语言模型探索都是基于稠密架构,与 MoE 相关的预训练、后训练甚至推理都存在大量未知的难题。而且 MoE 本身就比较难训练,在扩散这个新架构上做 MoE 则更加困难。

不过,蓝振忠表示,真正去做了之后,他们发现这些「风险」其实都是可管理的。这很大程度上是因为,他们有一些关键的工程、资源积累可以依托:

首先是一些已经在自回归模型上验证过的 MoE 训练经验和技术积累 —— 无论是业界开源的还是蚂蚁自身的经验,其实很多都可以拿来复用,这帮助他们解决了一些诸如负载均衡、噪声采样 shift 之类的问题。

其次是高质量的数据基础。团队直接复用了蚂蚁百灵大模型积累的 20T 数据,节省了大量人力物力。

最后是完善的工程基础设施。蚂蚁自研的 ATorch 训练框架已经具备专家并行(EP)等一系列并行加速技术,能够为大规模 MoE 训练提供强有力的技术支撑。同时,蚂蚁算力集群的稳定性确保了 20T 数据量级别的工业级训练能够高效稳定完成。

正是基于这些关键积累,团队最终成功打造出了 LLaDA-MoE。这是一个总参数量为 7B 的模型,激活参数量为 1.4B。目前,LLaDA-MoE 有两个版本:基础模型版 LLaDA-MoE-7B-A1B-Base 和指令微调版 LLaDA-MoE-7B-A1B-Instruct。
图片

  • HuggingFace 链接:https://huggingface.co/inclusionAI/LLaDA-MoE-7B-A1B-Base

  • GitHub 链接:https://github.com/ML-GSAI/LLaDA

在各项 benchmark 测试中,LLaDA-MoE 超越了现有的开源稠密 dLLM 模型,如 LLaDA1.0/1.5 和 Dream-7B,在代码、数学、Agent 这类相对结构化的任务上优势明显。此外,模型效果也追平了 Qwen2.5-3B 这个用同样数据量训练的稠密自回归模型,由此实现了 1.4B 激活参数,达到 2 倍多参数稠密模型的等效比。这说明 MoE 架构性能放大器的作用在 dLLM 上也成立。团队表示,他们后续将继续挖掘等效比这个 scaling law,探索更高稀疏比、更大尺寸的 MoE 扩散语言模型,以进一步释放 LLaDA-MoE 的规模化潜力。
图片

图片
图片

同时,他们还在 dLLM 推理加速方面持续投入,针对 dLLM 的并行特性,从算子融合、计算图优化、并行加速、缓存管理、并行解码等多个方面进行了全面优化,相比开源 SOTA 的 NVIDIA fast-dLLM 推理引擎实现了显著加速。相关代码与技术报告也将于近期开源、公布,以助力 dLLM 技术的快速发展。

扩散语言模型  为什么能 work? 

在蓝振忠、李崇轩看来,dLLM 能走到今天,有一定的必然性,因为无论从底层理论还是实践经验来看,这个方向都有着巨大的潜力。

首先,从理论上来看,李崇轩指出:从概率建模的角度来看,大语言模型的关键并不是必须依赖自回归展开,而是能否有效地表示和学习高维复杂的联合概率分布,即通过最大似然估计或最小化 KL 散度来逼近真实语言分布。

自回归的优势在于通过链式法则把难以直接建模的联合概率分解为逐步的条件概率,从而简化了训练和优化过程,但这种方式并不是唯一的。扩散模型提供了另一条路径:它不依赖固定的从左到右生成顺序,而是通过迭代的去噪过程逐渐逼近数据分布,这种过程同样能够刻画高维概率,只是采取了「由粗到细」的动态修正方式。

李崇轩特别指出,很多人们认为是自回归独有的性质,比如指令跟随、In-context Learning、压缩能力和可扩展性,其实更深层次上都源于最大似然估计这一共同的学习准则,而不是自回归本身。

例如,条件概率建模赋予模型指令跟随和对话能力,信息论意义上的最大似然保证了压缩特性,而优化的简洁性和与 Transformer 架构的兼容性则保证了可扩展性。这些性质同样可以在扩散模型里出现。图片

与此同时,自回归范式也存在固有局限:完成时间与输出长度成正比、只能单向展开、缺乏直接修正错误的能力。而扩散模型在这些方面提供了潜在优势,它天然支持并行解码、双向建模和迭代修正:

  • 并行解码意味着生成过程不必逐 token rollout,而是可以在有限步数内同时更新多个位置,使得推理迭代次数与输出长度不再严格挂钩,在长文本场景下更具效率潜力。此外,这种并行性还有望带来算力利用率的提升。传统自回归推理由于串行瓶颈,往往导致 GPU 大量算力处于空闲状态;而扩散模型的并行更新方式则能够在每一次迭代中充分调动大规模矩阵运算,更好地发挥硬件性能,从而在单用户使用时也能保持较快的响应速度,避免了自回归推理那种因为缺乏并发而浪费算力的情况。

  • 双向建模让模型能够同时利用前后文信息来重构序列,从而提升全局一致性和逻辑连贯性,在图文并茂等没有严格从前到后顺序的多模态场景中也更加自然。

  • 迭代修正则带来灵活的交互方式:当输出中某一部分有错误或需要修改时,扩散模型可以只针对局部片段重新采样,而不必推倒重来。这种能力尤其适合代码生成、文档编辑等需要频繁调整的场景。

图片此外,有证据表明,在同样的数据量下,扩散语言模型的学习效果比自回归模型更好。具体表现为,在有限数据场景中,自回归模型往往在几轮数据复用之后便迅速进入收益递减阶段,而扩散模型则能够持续从重复数据中榨取增量信息(dLLM 的数据利用效率可以达到 AR 的 3 倍以上);即便在极端重复的条件下,dLLM 依然能够不断提升在下游任务中的能力。

这种「榨干」数据的能力和 dLLM 的双向建模机制密切相关。传统的自回归模型采用严格的因果性建模方式,每个 token 的预测只能基于前面的 token,这种单向的信息流限制了模型对数据中复杂依赖关系的捕获。而 dLLM 通过掩码机制实现了真正的双向建模,允许模型在任意顺序下理解和生成文本。

从技术层面看,扩散模型的训练目标本身就要求对每个数据点进行多种不同的掩码配置和比例的处理。这意味着每次重复同一份数据时,模型实际上是在学习该数据的不同「视角」—— 不同的掩码模式暴露了数据中不同的上下文依赖关系。相比之下,自回归模型在重复训练时只是在强化相同的从前到后的预测模式。

这种数据效率优势在当前 AI 发展阶段具有特殊意义。随着高质量预训练数据逐渐稀缺,而计算资源变得相对充裕,用更多计算换取更好的数据利用率成为了一个合理的权衡。扩散语言模型虽然在训练和推理时需要消耗更多 FLOPs,但这种「超密度计算」带来的智能提升可能是值得的。

在 LLaDA 系列模型的研究中,蚂蚁和人大的联合团队已经验证了扩散语言模型的一些理论优势和工程可行性,让这个充满「不确定」的方向逐渐变得清晰、明朗起来。但要想充分兑现这一方向的潜力,他们还有很多问题需要克服,比如如何把理论上的速度优势在工程中真正实现,如何把模型 scale 到更大规模,如何设计类似 KV cache 的缓存机制,如何解决可变长度问题等。随着 LLaDA 系列模型的开源,这些问题有望借助社区的力量来共同解决。

「这个方向需要更多聪明的人参与进来,就像自回归模型的发展依靠了全世界的贡献,扩散语言模型的发展同样需要借助社区的力量。」蓝振忠在采访中说到。

跳出常规思维  探索智能上限

在谈到打造 LLaDA-MoE 的难点时,李崇轩提到:其实最难的一点是「下决心」,因为这件事没有人做过,「大家不知道能不能成」。

谈到这个「下决心」的过程,蓝振忠表示:「如果你不去探索那些在别人眼中可能充满风险的领域,我们就只能永远跟随他人已经确定的路径前行。我们要提升智能的上限,就不能一直 follow。」

当然,这种冒险是建立在理性判断的基础上。正如前文所言,在理论研究和实践的过程中,团队逐渐确信:扩散语言模型是一个有希望落地且风险可控的方向,而且在提升智能上限方面非常有潜力。因此,当他们真正决定投入资源去构建 LLaDA-MoE 时,这不仅是一次技术上的尝试,更是一次主动打破路径依赖、以不确定性换取未来上限的战略性选择。

能做出这种战略选择,对蚂蚁来说不是偶然。对这种前瞻性方向的判断和大力投入,在蚂蚁也有先例,比如百灵大模型的开源,推理框架 AReaL、多智能体框架 AWorld 的布局等等。

此外,蓝振忠所领导的通用人工智能研究中心还在向其他前沿方向发力,比如动态 MoE 架构的创新、混合线性架构的探索等。

这些方向全都围绕一个「北极星」指标 —— 通用人工智能(AGI)。他们希望通过不断的创新,把智能推到一个新高度。

我们也希望看到他们在这一方向取得更多进展。

参考链接

https://jinjieni.notion.site/Diffusion-Language-Models-are-Super-Data-Learners-239d8f03a866800ab196e49928c019ac#244d8f03a866808fb358d7a97bbd26f2

]]>

联系我们