动态列表

  • 比互联网泡沫惨17倍!AI裁员潮上万科学家下一站在哪里?
  • 300只狗试用延寿药,「寿命曼哈顿计划」启动!
  • 谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题
  • MIT经济学博士生,用AI骗过了诺奖导师、Nature、美国国会
  • 2025 IDEA大会沈向洋提出智能演进的五个维度:机会不仅来自技术本身
  • 基础架构的新探索:清华提出Step by Step Network
  • 罗永浩:当年如果不做 TNT,锤子科技有可能多撑几年;灵光上线 4 天下载突破 100 万;谷歌 AI 搜索出现赞助广告
  • AI半天顶博士6个月,奥特曼太激动!生化圈巨震
  • 别再问什么工作被AI取代!Karpathy直指本质:你的工作「可验证」吗?
  • Karpathy最新发文:醒醒!别把AI当人看,它没欲望也不怕死
  • 马斯克想要「杀死」氛围编程,就像FSD搞定自动驾驶
  • 硅谷今夜笑疯!马斯克自黑「傻胖子」,只因Grok硬捧他打赢泰森
  • 2025宝山·智能机器人产业大会暨嘉年华隆重开幕
  • 解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT
  • Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏
  • DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
  • 把具身机器人开发变简单,地瓜机器人S600与一站式平台双擎亮相
  • Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
  • 华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用
  • 腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
  • NeurIPS 2025 | MIT新研究:数据集蒸馏迎来“线性时代”,一张图顶半个ImageNet?
  • OpenAI联手菲尔兹奖得主与多位顶尖学者,首次公开GPT-5的科研真实战力
  • ICML 2025 | 联邦学习的“平衡艺术”:FedCEO破解隐私与效用的权衡困局
  • 美团宣布在全国建设「骑手公寓」;2026 款苹果 iPad Air 曝光;月之暗面被曝计划明年下半年 IPO
  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 北京内推 | 小红书审核基础算法团队招聘增量预训练/RL/推理方向算法实习生
  • ICLR 2026吃瓜大赏:论文区在卷,审稿区在演,比春晚还热闹的五大名场面
  • AI离“可靠记忆”还有多远?HaluMem首次把记忆系统幻觉拆到操作级
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道

NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA



  新智元报道  

编辑:LRST
【新智元导读】扩散概率生成模型(Diffusion Models)已成为AIGC时代的重要基础,但其推理速度慢、训练与推理之间的差异大,以及优化困难,始终是制约其广泛应用的关键问题。近日,被NeurIPS 2025接收的一篇重磅论文EVODiff给出了全新解法:来自华南理工大学曾德炉教授统计推断,数据科学与人工智能」研究团队跳出了传统的数值求解思维,首次从信息感知的推理视角,将去噪过程重构为实时熵减优化问题。

从Stable Diffusion的文生图到Sora的文生视频,扩散模型凭借其卓越的生成质量始终占据着图像和视频生成领域的主导地位。然而,这种高质量的生成往往伴随着巨大的代价(包括最近的扩散语言模型),它需要通过数十甚至上百步的迭代,从纯噪声中逐步恢复图像。

这就带来了两个让业界头疼的核心矛盾:

  • 推理效率与质量的博弈:想快(减少步数),画质就崩;想画质好,就得忍受漫长的生成时间。

  • 理论与实践的割裂:为了加速,业界提出了各种基于微分方程(ODE)的求解器(如DPM-Solver)。但这些方法往往更像是一种「数值近似技巧」,缺乏对扩散过程本质的解释。例如,为什么某些参数化方法(如预测噪声)效果不如预测数据?我们到底在优化什么?

更棘手的是,现有的许多SOTA加速算法(如LD3,DPM-Solver-v3)都依赖于参考轨迹Reference Trajectory)进行优化或者蒸馏。

也就是说,为了优化这10步的生成路径,你需要先跑一遍高精度的路径 (比如200步下的结果) 作为「参考答案」。

在实际应用中,不仅增加了巨大的计算开销,也限制了基础模型的泛化能力

华南理工大学「统计推断,数据科学与人工智能」团队提出的EVODiff,正是为了解决这两种核心的问题,不再修补ODE求解器的数值误差,而是回到了扩散模型的物理本源——熵(Entropy)

论文链接:https://openreview.net/forum?id=rKASv92Myl

EVODiff的核心洞察非常深刻:扩散模型的去噪过程,本质上就是一个不断减少不确定性、恢复信息的过程。

EVODiff的熵减路径的直观理解

在物理学中,熵代表系统的混乱程度。前向扩散过程是向图像中加噪,熵不断增加;反向去噪过程则是从混乱中恢复秩序,条件熵(Conditional Entropy) 应当不断降低。

研究团队不仅在数学上严格证明了数据预测在推理生成过程中优于噪声预测,还提出了一种免参考」(Reference-free)的自适应方差优化框架(EVODiff)。

框架首次展现出,在不依赖于高成本「参考轨迹」优化的前提下,就能够获得比一些依赖参考轨迹的方法(如DPM-Solver-v3, LD3)更高效、且更优的生成质量。

在CIFAR-10上,仅需10步推理,FID评测指标即达到惊人的2.78,相比于同样是无需参考轨迹优化的DPM-Solver++,生成误差率降低了45.5% (从5.10到2.78)。

在CIFAR-10上与「Referenc-free」方法DPM-Solver++的视觉对比

论文作者李仕贵和陈炜均是华南理工大学数学学院的博士研究生。通讯作者是华南理工大学电子与信息学院的曾德炉教授。


为何「数据预测」完胜「噪声预测」?


在扩散模型社区,存在一个长期的经验性共识:在做推理生成时,直接使用预测干净数据(Data Prediction)的参数化方案,往往比使用噪声预测(Noise Prediction) 的推理范式效果更好,这种现象尤其在较低步数下特别显著。

值得关注的是,这一现象与 MIT 何恺明(Kaiming He)团队最新发布的JiT架构 “Back to Basics: Let Denoising Generative Models Denoise” 中的核心洞察不谋而合! 何恺明团队从「流形假设的角度出发,指出自然数据位于低维流形上,而噪声弥漫于整个高维空间,因此神经网络直接预测干净数据要比预测噪声容易得多。

如果说Back to Basics是从直觉和实证角度呼吁回归本源,那么EVODiff则是在数学层面为这一趋势提供了坚实的理论支撑。

此前,这个现象只是被经验地验证。而在EVODiff这个研究中,论文首次给出了严格的数学证明

根据信息论推导,EVODiff团队发现:

  • 噪声预测路径: 需要经过的间接计算。这就像是让你通过「猜测干扰项」来还原真相,中间的误差会随着噪声预测的误差而被放大。

  • 数据预测路径: 直接建立的映射则从路径上就极大地规避了误差的伸缩和混合效应。

团队数学证明了 「数据预测参数化」能更直接地最小化重建误差,并能更有效地降低条件熵。

这一理论贡献,不仅解释了 EVODiff 的高效性,也从理论上侧面印证了何恺明团队 最新的JiT 架构,为未来扩散模型的设计提供了坚实且有原则的数学基础,明确了关于参数化选择的争论。


寻找最优路径
熵感知方差优化


既然目标是「降低熵」,那么更准确地熵减便能提高推理效率。同时既然预测数据在理论上更高效,那么在具体的迭代中该怎么更高效地降低数据预测的条件熵呢?

EVODiff首先回顾了扩散模型高斯建模中条件熵与条件方差(Conditional Variance)正相关的特点。

也就是说,只要在每一步推理中动态调整方差至最小,就能以最快的速度逼近真实图像。

基于此,EVODiff构建了一个「无参考」的自适应优化框架。它无需任何昂贵的预计算「参考轨迹」,而是仅利用当前迭代步骤的状态差异,通过一个计算开销极低的闭式解(Closed-form Solution),就能动态且实时地计算出最优的方差控制参数。这确保了每一步都朝着最高效的收敛路径。


EVODiff框架解析
更优、更快、更智能


EVODiff(Entropy-aware Variance Optimized Diffusion Inference)不仅仅是一个理论框架,更是一套可以直接落地的实时指导算法。

EVODiff框架的先进性在于,它首次展现出在无须参考轨迹优化的前提下,就能获得比一些(如DPM-Solver-v3)基于参考轨迹优化的方法更高效、且更优的生成质量。

其核心特性可以概括为「三板斧」:

1. Reference-free(免参考)的极致轻量化

与需要预先计算高成本轨迹的EMS(经验模型统计)类方法不同,EVODiff完全依靠在线(On-the-fly) 计算。它利用当前迭代步骤中的状态差异,动态优化方差。这意味着它没有任何额外的训练成本或预处理开销,做到了真正的「拿来即用」。

2. 闭式解(Closed-form Solution)的极速计算

许多优化算法需要复杂的迭代求解,会拖慢推理速度。但EVODiff团队推导出了方差优化目标的闭式解。这意味着,获得最优参数几乎不需要消耗计算资源。实验数据显示,EVODiff在获得SOTA画质的同时,推理时间甚至略快于DPM-Solver++。

3. 普适性(Universality)

无论是像素空间的传统扩散模型(如EDM),还是目前最火的隐空间扩散模型(如Stable Diffusion),亦或是不同的噪声调度策略(LogSNR, EDM schedule),EVODiff都能无缝适配并带来提升。


SOTA战绩
「免参考」全面超越「有参考」


EVODiff的「免参考」框架并非空洞理论。在NeurIPS 2025的评审中,实验数据显示,免参考路径在质量和效率上均超越了依赖参考轨迹的方法(DPM-Solver-v3),并在8-10NFE左右就超过了依赖参考轨迹的LD3方法(ICLR 2025 Oral),给审稿人留下了深刻印象。

CIFAR-10 (EDM模型):刷新纪录的低步数表现


在极低步数(NFE=10)的挑战下,EVODiff的表现堪称「降维打击」:

  • 基准(DPM-Solver++): FID 5.10

  • EVODiff:FID 2.78

  • 提升幅度: 错误率降低了惊人的 45.5%

ImageNet-256 (ADM模型):高分辨率下的稳健


在高分辨率图像生成上,EVODiff同样展现了统治力。为了达到相同的SOTA级画质:

  • 传统方法需要:20 NFE

  • EVODiff仅需:15 NFE

  • 效率提升: 25%

LSUN-Bedrooms (隐空间扩散模型):工业级模型的完美适配


针对当前工业界主流的隐空间模型(Latent Diffusion Model),EVODiff在LSUN-Bedrooms数据集上:

  • 相比UniPC,FID分数提升43.4%(在5 NFE下)。

  • 生成速度提升5.3%

这是一个非常关键的信号:EVODiff不仅适用于学术小模型,更能直接赋能Stable Diffusion等工业级大模型。

EVODiff与Reference-free方法在不同指标下的全面对比

EVODiff与Reference-free和Reference-based的方法的全面对比评估

视觉实测:告别「多手多脚」的伪影噩梦


除了冷冰冰的数据,EVODiff在视觉感官上的提升更为直观。

文本生成图像(Text-to-Image) 任务中,低步数推理往往会导致图像结构崩坏,比如生成出扭曲的肢体或模糊的背景。

论文展示了一个经典的测试案例:提示词 "An astronaut riding a horse"(宇航员骑马)

  • 竞品方法(UniPC/DPM++): 在低步数下,马匹经常会出现「五条腿」的解剖学错误,或者宇航员与马的融合显得极不自然。

  • EVODiff: 生成的图像结构严谨,马匹四肢正常,光影过渡自然,展现了极高的语义对齐度和视觉连贯性。

EVODiff在高效文生图上的表现

在文生图上仅用简单的Prompt,例如「Giant caterpillar riding a bicycle」和「a photograph of an astronaut riding a horse」,EVODiff能生成高保真、语义连贯且正确的图像,而其他竞争方法则有严重伪影

德国AI公司Mindverse在其专题报道中特别指出了这一点:「EVODiff在文本生成图像任务中展现了‘更自然、更一致、更少伪影’的优势,即使在使用简单的提示词时也是如此。」


影响力与未来
从学术突破到工业落地


EVODiff的发表,不仅仅是多了一个SOTA算法框架,它标志着扩散模型推理的研究进入了理论驱动的新阶段。

以往,我们为了加速,往往是在「盲改」求解器或者特定的优化和适当的蒸馏。而EVODiff告诉我们:只要你从熵感知信息流优化的角度去理解去噪过程,便能从原则上去设计一个既有效率提升又有生成质量提升的双赢范式。

德国Mindverse的报道评价道:「EVODiff的引入代表着扩散推理优化向前迈出了一步……它系统地降低条件熵的能力,为更高效、更高质量的生成模型开辟了新的可能性。」

参考资料: 
https://openreview.net/forum?id=rKASv92Myl

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652648231&amp;idx=2&amp;sn=f736f364496dcb74d185afae025da568&amp;chksm=f07c233de9e2ad897ccab0884d9c6156a03bb3dfa1fdcb56213007e3b22c0855ac46429b8d5d&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/2AKDymMShk&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们