动态列表

  • GPT-5难产内幕曝光!核心团队遭挖空,推理魔咒难破,靠英伟达续命
  • 哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
  • Hinton预言成真,美国大学生掀起本科辍学潮!月入万刀修马桶,不怕AI裁员
  • 天才美少女的开挂人生,首次揭晓!11岁自学微积分,17岁推翻40年难题
  • GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
  • 19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
  • 通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
  • 刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
  • 一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
  • 多模态后训练反常识:长思维链SFT和RL的协同困境
  • 库克打气苹果 AI:不拼首创,自信能主导市场;微信提现手续费下调至 0.01 元;Manus 推 Wide Research
  • 微软破4万亿,被裁员工扎心!70级工程师天价薪酬曝光:入职大礼包2700万
  • 港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法
  • 刚刚,OpenAI神秘开源模型泄露!「闪现」1分钟被删,配置被网友扒光
  • 24岁辍学博士,小扎捧2.5亿薪酬包亲自上门抢人!AI顶薪已让NBA汗颜
  • 奕派科技重磅发布“未来之翼”战略,2026款东风奕派eπ008限时先享价17.36万元
  • 一切竞争,都变成了「AI 竞争」
  • 途深智合推出旗下AI科研品牌--追梦AI
  • 模型共享、数据互通、设施互连,上海人工智能实验室上线「书生」科学发现平台
  • 一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么
  • 联合三大蛋白质模型,仅需4~6周,定制癌细胞特效「识别器」
  • 全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告
  • 中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先
  • 驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代
  • 思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
  • 超聚变亮相WAIC 2025 重构数智化平台,共建智能体时代
  • Manus大升级,100多个智能体并发给你做任务
  • 挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
  • 机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
  • 火山引擎作为「AI 原生」基础设施,变得更强了
  • 英伟达回应「芯片后门」:不存在后门;大疆推 Osmo 360 全景相机,2999元;微软成第二家 4 万亿美元公司
  • WAIC唯一指定C位,AI「国家队」又赢麻了!秒懂Hinton伦敦腔,现场杀疯老外狂点赞
  • 首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
  • 小扎一夜反水,背刺开源!亲手葬送「Llama神话」,股价大涨12%
  • GPT-5发布倒计时?全网泄露来了:微软Copilot憋大招,GPT-5上线最后冲刺!
  • 17.98 万的乐道 L90,有多少蔚来的诚意,就有多少李斌的「求生欲」
  • ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
  • 当提示词优化器学会进化,竟能胜过强化学习
  • ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
  • 谷歌发布AlphaEarth基础模型:构建「地球版ChatGPT」,融合多源数据,实现10米级地球观测
  • 微软花重金做的Copilot,居然被WPS一个按钮给秒了?
  • 定义科学智能2.0:在WAIC,复旦与上智院的答案是开放协作、科学家为中心,以及一个「合作伙伴」
  • OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
  • VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
  • XREAL One Pro 体验:AR 老炮的自我革命
  • WAIC UP! 之夜:一场关于AI与人类未来的星空思辨
  • AI 智能体,让每个人可以像科学家一样工作和思考
  • 刚刚,扎克伯格公开信:Meta不会开源全部模型
  • 没敲过代码的我,半小时「聊」出一个能用能分享的「小程序」
  • 把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
  • 32.18万起!理想i8正面「硬刚」特斯拉Model X
  • 智能驾驶最大的障碍,不是懂车帝
  • 刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
  • 小米青年公寓正式启用,1999 元/月;Meta AI 数据中心投入 720 亿美元;NBA 引入「AI 篮球」
  • AI百人榜刷屏,小扎照单全收?辛顿Ilya师徒霸榜,第二名竟是本科生
  • 炮轰黄仁勋,决裂奥特曼!1700亿美元估值背后,硅谷最不好惹的AI狂人
  • 别只盯着李飞飞!AI的「3D数据底座」已被这家中国公司悄悄建好
  • 无需准确传感信号!轻松搞定「多段软体机械臂」复杂位姿与形状控制
  • Nature 子刊 | DeepSeek落户超750家医院,清华团队剖析AI医疗监管隐忧
  • P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
  • 开出10亿美元天价,小扎挖人Mira创业公司惨遭拒:俺们不差钱
  • 当智能成为主要生产资料,硅基经济学引爆「AI+金融」
  • SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
  • 刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
  • 凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o
  • AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
  • 字节辟谣「豆包汽车」:无造车计划;英伟达市值突破4.3 万亿美元;传特斯拉将推「低价赛博皮卡」
  • 科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
  • 全球首次,「AI记忆」开源落地!MIRIX同步上线APP
  • GPT-5基准测试泄露,被曝两天后发布?打Minecraft震撼开挂网友直呼封神
  • 马斯克偷偷憋了个大招!Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
  • 理想i8正式发布:首款纯电SUV,售价32.18万元起
  • WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
  • 通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
  • 这家国内公司,在给具身智能技术栈做「通解」
  • ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
  • 全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发
  • LeCun出手,造出视频世界模型,挑战英伟达COSMOS
  • 联合十余家国产生态,商汤大装置发布“算力Mall”,打造算力超级市场
  • 用说的就能做 App,这家公司想做 AI 时代的 ins
  • 从数字人到「有温度的」机器人,京东把 AI 深度应用的路线图「摸透」了
  • 开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
  • 共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
  • 阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
  • 不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
  • WAIC2025,斑马智行元神AI获国际测评机构全项第一
  • 蛋白质基座的GPT时代来了?AMix用Test-time Scaling让蛋白质设计迈向通用智能
  • Allegro-FM:剑指分子动力学基础模型,零样本预测89种元素及复杂反应
  • AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了
  • GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力,破解出海成本与效率难题
  • WAIC 2025: 斑马智行元神AI大模型,获全球机构测评第一
  • 国内首例!由钉钉AI平台训练的豆蔻大模型通过妇产科主任医师考试
  • 闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
  • 智谱发布新一代基座模型GLM-4.5:开源、高效、低价,专为智能体而生
  • AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay
  • WAIC 2025前探:AI硬件如何改变我们的日常生活
  • 这届WAIC,无问芯穹发布了三个「盒子」
  • 「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
  • EvaLearn:AI下半场的全新评测范式!
  • 蚂蚁数科发布金融推理大模型 助力金融机构加速落地智能体应用
  • 2025 WAIC容联云AI AGENT论坛启幕,以技术引擎驱动产业智能跃迁
  • 商汤大装置亮相WAIC 2025,多项标志性成果打造AI基础设施新范式
  • 广大、清华等开发EdgeAIGC,让边缘缓存命中率飙升41%,AIGC延迟与成本双降
  • WAIC直击|快手可灵AI引领「生成式AI应用元年」,累计生成超2亿视频
  • 硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
  • ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
  • 扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
  • 多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
  • 具身智能,腾讯「低调入局」
  • 首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
  • 特斯拉廉价 Model Y 减配内饰曝光;Firefox 终止中国账户运营;宇树王兴兴:经常偷懒,用 AI 写代码|极客早知道
  • CEO卷走24亿,二号员工血亏99%!30亿Windsurf梦碎内幕曝光
  • 90后养老就靠它?清华系机器人WAIC炫技,叠衣取货秀翻全场
  • 谁是Adam?NeurIPS 2025审稿爆年度最大笑话!Hinton也曾被拒稿
  • Nature子刊 | 上交突破极限,端到端无人机高速避障,可微分物理实现
  • 菲尔兹奖得主深度参与,WAIC全方位探讨「AI for Math」
  • AI遇上华夏上古,复旦、上智院、上海创智学院联合发布早期中华文明多模态大模型
  • AI Agent 第一波浪潮过后,OPPO 是怎么闷声做出第一个爆款的?
  • Vibe Coding 开赛,阿里靠新模型赢麻了?
  • 钛动科技发布首个全球营销 AI Agent,改写中国品牌出海「新叙事」
  • 你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
  • 把《坤舆万国全图》装进口袋,扫描全能王黑科技亮相2025WAIC
  • ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
  • 世界人工智能大会:分子之心发布10大解决方案 AI蛋白设计迈入“可编程”时代
  • 离线智能,什么时候迎来 DeepSeek 时刻?
  • 阿里模型三连发闪耀WAIC,中国开源模型“周级迭代”引领AI新变革
  • Anthropic 最新估值超 1500 亿美元;首款国产消费级 6nm GPU 亮相;100% 预防艾滋神药获准上市

ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法

图片

本文第一作者是自南洋理工大学的博后朱贝尔和西湖大学的博士生王若禹,主要研究方向分别是 Robust Machine Learning 和 Diffusion Model,该论文已被 ICCV 2025 录用。

近年来,扩散模型(Diffusion Models)凭借出色的生成质量,迅速成为图像、视频、语音、3D 内容等生成任务中的主流技术。从文本生成图像(如 Stable Diffusion),到高质量人脸合成、音频生成,再到三维形状建模,扩散模型正在广泛应用于游戏、虚拟现实、数字内容创作、广告设计、医学影像以及新兴的 AI 原生生产工具中。

其背后的核心机制是 「逐步去噪」 过程:从一张完全随机的图开始,模型通过上百次迭代逐步还原出清晰、真实的图像。这种逐步精化的策略虽然保证了生成质量,却也带来了显著的推理延迟,成为制约其部署效率的瓶颈,尤其在移动设备、实时生成和大规模应用中表现尤为明显。

为了解决这一问题,研究者提出了三种主要的加速思路:一是通过数值求解器(ODE Solvers)减少迭代步数;二是采用模型蒸馏(Distillation)将多步过程压缩为少步甚至一步;三是借助并行计算(Parallelism)加速多个计算路径的推理。然而,每种方法都存在局限:数值求解器在迭代步数极少时往往会损失生成质量;蒸馏方法则需重新训练模型,成本高昂;并行方法虽具潜力,但在低步数场景下仍未被充分挖掘。

为此,西湖大学 AGI 实验室提出了一种融合三类优势的创新方案 ——Ensemble Parallel Direction Solver(EPD-Solver)。该方法以数值求解器为骨架,通过轻量级蒸馏学习获得少量可学习参数,并在每次迭代中并行计算多个方向的梯度,再以加权方式融合,从而有效减少数值积分误差。这种方式不仅无需对模型进行大规模改动,也不会带来额外的延迟开销,成功实现在 3–5 步采样下仍能生成高质量图像。

更进一步,EPD-Solver 还能以 「插件」 的形式应用于现有的主流求解器中,显著提升其生成质量和效率。大量实验表明,在相同计算延迟下,该方法在 CIFAR-10、FFHQ、ImageNet 等多个基准测试中取得了领先的图像生成效果,展示出其在低延迟高质量生成任务中的巨大潜力。

图片
  • 论文题目:Distilling Parallel Gradients for Fast ODE Solvers of Diffusion Models

  • 论文地址:https://arxiv.org/abs/2507.14797

  • 项目地址:https://github.com/BeierZhu/EPD

动机

从宏观层面来看,各类 ODE 求解器都在 「如何利用有限的梯度估计去近似积分」 上下功夫,如下图所示:

  • DDIM 只利用起点梯度(图片)近似积分

  • EDM 利用梯形法,利用起点梯度(图片)和终点梯度(图片)近似积分

  • AMED 通过轻量网络预测一个中间时刻图片,利用该时刻(图片)梯度近似积分

图片

EDM 和 AMED 在 DDIM 的基础上,增加了一次额外梯度评估( tₙ 与 sₙ )来提升积分近似精度。该方法的核心动机是将额外梯度评估扩展到多个时刻,提出 EPD-Solver:

  • 并行计算 K 个中间时刻的梯度(图片

  • 凸组合融合 K 个梯度,获得更精确的积分近似(图片

  • 由于所有梯度互相独立,不增加整体采样延迟

理论支撑(Mean value theorem for vector-valued functions)

对于在闭区间 [a,b] 上连续、在开区间 (a,b) 上可微的 n 维向量值函数 f,存在系数 图片 和中间点 图片,使得:

图片

将其应用于去噪积分 图片,即可等价地表示为「在若干中间时刻计算梯度并按简单形权重加权求和」,这正是 EPD‑Solver 的核心思想。

方法

参数定义与更新

在每个采样步骤 n 中定义参数集 Θₙ = {τₙᵏ, λₙᵏ, δₙᵏ, oₙ}ₖ₌₁ᴷ,其中:

  • τₙᵏ ∈ (tₙ₊₁, tₙ):第 k 个中间时刻

  • λₙᵏ ≥ 0 且 ∑ₖ λₙᵏ = 1:梯度融合权重

  • δₙᵏ:中间时刻偏移量

  • oₙ:输出尺度扰动参数

推理更新规则

图片

蒸馏训练流程

1. 教师轨迹生成:采用高精度 ODE 解算器(如 DPM-Solver)在扩展时间表 𝒯ₜₑₐ 上生成参考状态;

2. 学生轨迹采样:在相同初始噪声 下,使用学生时间表 𝒯ₛₜᵤ 采样得到学生状态;

3. 目标函数:针对每步 n,最小化学生与教师状态差异

图片

4. 端到端优化:通过 N 次反向传播,联合优化所有参数 Θ₁:ₙ

插件化集成

EPD‑Plugin 设计为可插拔模块,可无缝集成至现有多步 ODE 求解器(如 iPNDM)。用户仅需替换梯度计算与融合流程,即可在原框架下获得加速与质量提升。

图片
图片

实验结果

图片

1. 性能全面领先:在 CIFAR-10、FFHQ、ImageNet 和 LSUN Bedroom 四个数据集的测试中,EPD-Solver (当 K=2 时) 在所有 NFE(函数求值次数)设置下,其 FID 分数均比基线求解器有持续且显著的提升 。

2. 低 NFE 场景优势明显:在极低的 NFE 设置(例如 3 NFE)下,EPD-Solver 的优势尤为突出 。例如,在 LSUN Bedroom 数据集上,EPD-Solver 的 FID 分数为 13.21,而次优的基线方法 AMED-Solver 的 FID 分数为 58.21 。

3. 插件(Plugin)性能出色:当作为插件(EPD-Plugin)应用于 iPNDM 求解器时,该方法同样表现出色 。尤其是在 NFE 大于 7 的场景,其性能普遍优于 EPD-Solver 。

图片

通过可视化两个随机像素在生成过程中的演变路径,可以观察到 EPD-Solver 的轨迹与「教师」轨迹展现出高度的一致性。相比之下,DDIM、DPM-Solver 和 iPNDM 等其他求解器的轨迹相比教师轨迹明显偏离。

图片

在 Stable Diffusion v1.5 模型上,EPD-Solver 通过在极低的采样步数下(如 8-20 NFE)生成质量远超 DPM-Solver++(2M) 和 AMED-Plugin 等先进求解器,从而展现出显著的加速效果。

结语

通过 EPD-Solver,西湖大学的研究人员展示了如何利用其创新的并行梯度评估机制 ,在不增加单步推理延迟的前提下 ,高效且精确地减小了生图模型每步采样的截断误差,缓解扩散模型在低步数采样下的图像质量退化问题 。

该方法的核心优势在于两点:

1.  并行效率与精度提升:通过引入多个可学习的中间时间步梯度评估并将其进行凸组合加权,显著提升了 ODE 积分近似的精度,从而降低了局部截断误差。尤为关键的是,这些额外的梯度计算因其独立性,可实现完全并行化,在保持单步推理零延迟增加的前提下提升了生成质量。

2.  训练轻量与即插即用:仅需通过蒸馏方式优化一个极小规模的可学习参数集,避免了代价高昂的扩散模型重训练或微调。该方法还可作为 EPD-Plugin 轻松集成至现有 ODE 采样器(如 iPNDM),进一步扩展其应用范围。

综上,EPD-Solver 突破了扩散模型在低延迟采样时速度与图像质量的核心权衡瓶颈,提供了一种高效、实用且易于部署的新方法。其在多个图像生成基准上显著优于现有先进求解器的实验表现,有力证明了并行计算是推动扩散模型高效采样发展的一个极具潜力的研究方向。

]]>

联系我们