动态列表

    MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能

    CV君 2025-11-18 15:20 江苏

    大道至简,或许这才是生成模型的未来。

    今天来自麻省理工学院(MIT)的何恺明团队发表了一篇引人深思的技术报告,对当前主流的扩散生成模型提出了一个根本性的拷问:我们真的需要让模型去预测“噪声”吗?

    论文标题直截了当——Back to Basics: Let Denoising Generative Models Denoise(返璞归真:让去噪生成模型真正去噪)。研究者们认为,当前模型普遍采用的预测噪声(-prediction)或流速(-prediction)的范式,可能偏离了“去噪”这一核心理念。他们提出了一种名为JiT (Just image Transformers)的方法,倡导让模型回归初心,直接预测干净的图像(-prediction)。令人惊讶的是,这种看似简单的回归,仅使用一个朴素的、无任何额外组件的Transformer架构,就在ImageNet等高难度任务上取得了极具竞争力的成果,甚至在某些情况下避免了传统方法的“灾难性失败”。

    问题的核心:流形假设

    聊到技术细节前,我们得先理解一个经典但关键的概念——流形假设(Manifold Assumption)。这个假设认为,我们日常所见的自然数据(比如照片),虽然存在于一个维度极高的像素空间里(一张256x256的彩色图片就有196,608个维度),但它们实际上是分布在一个低维的“流形”上的。你可以把它想象成,三维空间里的一张纸(二维流形),纸上的点虽然有三个坐标,但它们的本质关系是二维的。

    这篇论文的核心论点就建立于此:

    • 干净图像(:位于这个低维流形上,结构性强。

    • 噪声(:完全是高维空间中的随机扰动,不遵循任何流形结构。

    • 流速(:作为图像和噪声的组合,同样是“越界”的,处于流形之外。

    因此,让一个神经网络去预测一个“在流形上”的目标(干净图像),和预测一个“在流形外”的目标(噪声或流速),是两个难度完全不同的任务。作者认为,预测干净图像本质上更简单,因为它允许网络专注于学习数据的内在低维结构,而自然地“滤除”高维噪声。

    预测 vs. 预测:为何差异如此之大?

    扩散模型的工作流程可以简化为:首先通过一个预设的“加噪”过程,将一张干净图像逐步变成纯噪声;然后训练一个神经网络,让它学会从任意时刻的含噪图像中,恢复出一些关键信息,从而实现“去噪”生成。

    加噪过程通常表示为:

    其中,时刻的含噪图像,是原始干净图像,是标准正态分布的噪声,从0到1变化。

    模型的任务就是从预测出或流速(定义为)。虽然这三者在数学上可以相互转换,但作者指出,让网络直接输出什么,至关重要

    上表清晰地展示了这三种预测目标(prediction)和三种损失函数(loss)的所有组合方式。例如,当网络预测-prediction),但使用-loss时,需要先通过公式转换为,再计算损失。

    一个有趣的玩具实验

    为了直观展示-prediction的优势,研究者设计了一个“降维打击”实验。他们将一个二维的螺旋线数据(低维流形),通过一个随机投影矩阵“埋”入一个更高维的维空间中。然后,训练一个简单的MLP模型在这个高维空间里生成数据。

    结果如上图所示,当观测空间的维度从2增加到512时:

    • -prediction:始终能完美地恢复出原始的二维螺旋线。即使在时,一个只有256维隐藏层的“能力不足”的MLP也能成功,因为它只需要学习输出那个低维的流形数据。

    • -prediction 和 -prediction:随着维度的增加,性能急剧下降。在时,它们彻底失败,生成的图像一片混乱。这是因为它们被迫在一个高维空间中去拟合无结构的噪声,这对网络容量提出了苛刻的要求。

    JiT:大道至简的Transformer

    基于以上洞察,作者提出了JiT (Just image Transformer) 架构。它的设计理念堪称极简主义:

    • 纯粹的ViT:就是一个标准的Vision Transformer,没有U-Net那样的下采样和上采样结构。

    • 操作于像素块:直接将图像分割成大块的patch(例如16x16或32x32),然后送入Transformer。

    • 三无产品无分词器(tokenizer)无预训练无额外损失函数(如感知损失)。

    • 坚定地执行-prediction:网络的目标永远是直接输出预测的干净图像。

    这种简单性与当前主流的复杂模型(如DiT、LDM)形成了鲜明对比,后者通常依赖于强大的VAE分词器、预训练权重或复杂的网络结构。

    实验结果:简单即有效

    JiT的性能究竟如何?实验结果令人信服。

    预测目标的决定性作用

    研究者在ImageNet 256x256分辨率上,使用JiT-B/16模型(patch size为16)测试了所有9种“预测-损失”组合。此时,每个patch的维度是 ,正好等于模型隐藏层的维度。

    结果如上表(a)所示,泾渭分明:

    • 所有采用 -prediction 的组合都取得了优异的FID分数(最低8.62)

    • 所有采用 -prediction-prediction 的组合都遭遇了“灾难性失败”,FID分数飙升至数百,生成的图像质量极差。

    这强有力地证明了,当输入维度很高时,让模型去预测高维的、非结构化的噪声或流速,是一项极其困难甚至不可能完成的任务。相比之下,预测低维流形上的干净图像则要稳健得多。

    有趣的是,当patch维度远小于模型隐藏层维度时(如上表(b),在64x64图像上使用4x4 patch,维度仅48),所有组合都能正常工作。这也解释了为什么在低分辨率数据集(如CIFAR-10)或使用强力VAE降低维度的潜在扩散模型中,这个问题没有暴露出来。

    上图直观地展示了-prediction和-prediction在训练过程中的差异。使用相同的-loss,-prediction的训练损失(上图顶部曲线)远高于-prediction,并且其单步去噪后的图像(上图底部右侧)也出现了明显的伪影。

    性能对比与可扩展性

    JiT不仅在理念上简洁,在性能上也毫不逊色。下表展示了JiT与其他SOTA模型在ImageNet 256x256和512x512分辨率下的比较。

    ImageNet 256x256 结果对比

    在ImageNet 256x256基准上,最大的JiT-G/16模型经过600个epoch的训练,取得了FID 1.82的优异成绩,完全可以与DiT、SiT等依赖复杂Tokenizer的SOTA模型相媲美。

    ImageNet 512x512 结果对比

    可以看到,JiT在不使用任何预训练、额外损失或复杂技巧的情况下,取得了与依赖复杂组件的潜在扩散模型(LDM)和像素空间模型相媲美的结果。例如,在512x512分辨率下,JiT-G/32的FID达到了1.78,这是一个非常强的性能指标。

    更重要的是,JiT的计算成本极低。由于其简单的架构和对大patch的有效处理,其Gflops(每秒十亿次浮点运算)远低于其他像素空间模型,甚至低于许多潜在空间模型。这使得JiT在训练和推理上都更加高效。

    总结

    这篇论文的核心贡献是清晰而深刻的:它重新审视了扩散模型的基础,并有力地论证了“直接预测干净图像”(x-prediction)相较于“预测噪声”(ϵ-prediction)的根本优势,尤其是在处理高维原始数据(如像素)时。

    JiT的成功表明,一个简单、自包含的“Diffusion + Transformer”范式,有潜力成为未来生成模型的基础。它不仅在性能上具有竞争力,更在概念上回归了“去噪”的本质,为我们揭示了一条更简洁、更高效的道路。

    你觉得让模型直接“看图说话”和“猜谜”哪个更简单?这篇论文给出了它的答案。大家对这个方法怎么看?欢迎在评论区留下你的看法!

    阅读原文

    跳转微信打开

    联系我们