CV君 2025-11-18 15:20 江苏
大道至简,或许这才是生成模型的未来。
今天来自麻省理工学院(MIT)的何恺明团队发表了一篇引人深思的技术报告,对当前主流的扩散生成模型提出了一个根本性的拷问:我们真的需要让模型去预测“噪声”吗?
论文标题: Back to Basics: Let Denoising Generative Models Denoise
作者: Tianhong Li(黎天鸿), Kaiming He(何恺明)
机构: 麻省理工学院 (MIT)
论文标题直截了当——Back to Basics: Let Denoising Generative Models Denoise(返璞归真:让去噪生成模型真正去噪)。研究者们认为,当前模型普遍采用的预测噪声(-prediction)或流速(-prediction)的范式,可能偏离了“去噪”这一核心理念。他们提出了一种名为JiT (Just image Transformers)的方法,倡导让模型回归初心,直接预测干净的图像(-prediction)。令人惊讶的是,这种看似简单的回归,仅使用一个朴素的、无任何额外组件的Transformer架构,就在ImageNet等高难度任务上取得了极具竞争力的成果,甚至在某些情况下避免了传统方法的“灾难性失败”。
问题的核心:流形假设
聊到技术细节前,我们得先理解一个经典但关键的概念——流形假设(Manifold Assumption)。这个假设认为,我们日常所见的自然数据(比如照片),虽然存在于一个维度极高的像素空间里(一张256x256的彩色图片就有196,608个维度),但它们实际上是分布在一个低维的“流形”上的。你可以把它想象成,三维空间里的一张纸(二维流形),纸上的点虽然有三个坐标,但它们的本质关系是二维的。
这篇论文的核心论点就建立于此:
干净图像():位于这个低维流形上,结构性强。
噪声():完全是高维空间中的随机扰动,不遵循任何流形结构。
流速():作为图像和噪声的组合,同样是“越界”的,处于流形之外。
因此,让一个神经网络去预测一个“在流形上”的目标(干净图像),和预测一个“在流形外”的目标(噪声或流速),是两个难度完全不同的任务。作者认为,预测干净图像本质上更简单,因为它允许网络专注于学习数据的内在低维结构,而自然地“滤除”高维噪声。
预测 vs. 预测:为何差异如此之大?
扩散模型的工作流程可以简化为:首先通过一个预设的“加噪”过程,将一张干净图像逐步变成纯噪声;然后训练一个神经网络,让它学会从任意时刻的含噪图像中,恢复出一些关键信息,从而实现“去噪”生成。
加噪过程通常表示为:
其中,是时刻的含噪图像,是原始干净图像,是标准正态分布的噪声,从0到1变化。
模型的任务就是从预测出、或流速(定义为)。虽然这三者在数学上可以相互转换,但作者指出,让网络直接输出什么,至关重要。
上表清晰地展示了这三种预测目标(prediction)和三种损失函数(loss)的所有组合方式。例如,当网络预测(-prediction),但使用-loss时,需要先通过公式将转换为,再计算损失。
一个有趣的玩具实验
为了直观展示-prediction的优势,研究者设计了一个“降维打击”实验。他们将一个二维的螺旋线数据(低维流形),通过一个随机投影矩阵“埋”入一个更高维的维空间中。然后,训练一个简单的MLP模型在这个高维空间里生成数据。
结果如上图所示,当观测空间的维度从2增加到512时:
-prediction:始终能完美地恢复出原始的二维螺旋线。即使在时,一个只有256维隐藏层的“能力不足”的MLP也能成功,因为它只需要学习输出那个低维的流形数据。
-prediction 和 -prediction:随着维度的增加,性能急剧下降。在时,它们彻底失败,生成的图像一片混乱。这是因为它们被迫在一个高维空间中去拟合无结构的噪声,这对网络容量提出了苛刻的要求。
JiT:大道至简的Transformer
基于以上洞察,作者提出了JiT (Just image Transformer) 架构。它的设计理念堪称极简主义:
纯粹的ViT:就是一个标准的Vision Transformer,没有U-Net那样的下采样和上采样结构。
操作于像素块:直接将图像分割成大块的patch(例如16x16或32x32),然后送入Transformer。
三无产品:无分词器(tokenizer),无预训练,无额外损失函数(如感知损失)。
坚定地执行-prediction:网络的目标永远是直接输出预测的干净图像。
这种简单性与当前主流的复杂模型(如DiT、LDM)形成了鲜明对比,后者通常依赖于强大的VAE分词器、预训练权重或复杂的网络结构。
实验结果:简单即有效
JiT的性能究竟如何?实验结果令人信服。
预测目标的决定性作用
研究者在ImageNet 256x256分辨率上,使用JiT-B/16模型(patch size为16)测试了所有9种“预测-损失”组合。此时,每个patch的维度是 ,正好等于模型隐藏层的维度。
结果如上表(a)所示,泾渭分明:
所有采用 -prediction 的组合都取得了优异的FID分数(最低8.62)。
所有采用 -prediction 或 -prediction 的组合都遭遇了“灾难性失败”,FID分数飙升至数百,生成的图像质量极差。
这强有力地证明了,当输入维度很高时,让模型去预测高维的、非结构化的噪声或流速,是一项极其困难甚至不可能完成的任务。相比之下,预测低维流形上的干净图像则要稳健得多。
有趣的是,当patch维度远小于模型隐藏层维度时(如上表(b),在64x64图像上使用4x4 patch,维度仅48),所有组合都能正常工作。这也解释了为什么在低分辨率数据集(如CIFAR-10)或使用强力VAE降低维度的潜在扩散模型中,这个问题没有暴露出来。
上图直观地展示了-prediction和-prediction在训练过程中的差异。使用相同的-loss,-prediction的训练损失(上图顶部曲线)远高于-prediction,并且其单步去噪后的图像(上图底部右侧)也出现了明显的伪影。
性能对比与可扩展性
JiT不仅在理念上简洁,在性能上也毫不逊色。下表展示了JiT与其他SOTA模型在ImageNet 256x256和512x512分辨率下的比较。
ImageNet 256x256 结果对比
在ImageNet 256x256基准上,最大的JiT-G/16模型经过600个epoch的训练,取得了FID 1.82的优异成绩,完全可以与DiT、SiT等依赖复杂Tokenizer的SOTA模型相媲美。
ImageNet 512x512 结果对比
可以看到,JiT在不使用任何预训练、额外损失或复杂技巧的情况下,取得了与依赖复杂组件的潜在扩散模型(LDM)和像素空间模型相媲美的结果。例如,在512x512分辨率下,JiT-G/32的FID达到了1.78,这是一个非常强的性能指标。
更重要的是,JiT的计算成本极低。由于其简单的架构和对大patch的有效处理,其Gflops(每秒十亿次浮点运算)远低于其他像素空间模型,甚至低于许多潜在空间模型。这使得JiT在训练和推理上都更加高效。
总结
这篇论文的核心贡献是清晰而深刻的:它重新审视了扩散模型的基础,并有力地论证了“直接预测干净图像”(x-prediction)相较于“预测噪声”(ϵ-prediction)的根本优势,尤其是在处理高维原始数据(如像素)时。
JiT的成功表明,一个简单、自包含的“Diffusion + Transformer”范式,有潜力成为未来生成模型的基础。它不仅在性能上具有竞争力,更在概念上回归了“去噪”的本质,为我们揭示了一条更简洁、更高效的道路。
你觉得让模型直接“看图说话”和“猜谜”哪个更简单?这篇论文给出了它的答案。大家对这个方法怎么看?欢迎在评论区留下你的看法!