ToolsAi

CV君 2025-11-18 15:20 江苏

大道至简，或许这才是生成模型的未来。

今天来自麻省理工学院（MIT）的何恺明团队发表了一篇引人深思的技术报告，对当前主流的扩散生成模型提出了一个根本性的拷问：我们真的需要让模型去预测“噪声”吗？

论文标题: Back to Basics: Let Denoising Generative Models Denoise
作者: Tianhong Li(黎天鸿), Kaiming He(何恺明)
机构: 麻省理工学院 (MIT)
论文地址: https://arxiv.org/abs/2511.13720
代码仓库: https://github.com/LTH14/JiT

论文标题直截了当——Back to Basics: Let Denoising Generative Models Denoise（返璞归真：让去噪生成模型真正去噪）。研究者们认为，当前模型普遍采用的预测噪声（-prediction）或流速（-prediction）的范式，可能偏离了“去噪”这一核心理念。他们提出了一种名为JiT (Just image Transformers)的方法，倡导让模型回归初心，直接预测干净的图像（-prediction）。令人惊讶的是，这种看似简单的回归，仅使用一个朴素的、无任何额外组件的Transformer架构，就在ImageNet等高难度任务上取得了极具竞争力的成果，甚至在某些情况下避免了传统方法的“灾难性失败”。

问题的核心：流形假设

聊到技术细节前，我们得先理解一个经典但关键的概念——流形假设（Manifold Assumption）。这个假设认为，我们日常所见的自然数据（比如照片），虽然存在于一个维度极高的像素空间里（一张256x256的彩色图片就有196,608个维度），但它们实际上是分布在一个低维的“流形”上的。你可以把它想象成，三维空间里的一张纸（二维流形），纸上的点虽然有三个坐标，但它们的本质关系是二维的。

这篇论文的核心论点就建立于此：

干净图像（）：位于这个低维流形上，结构性强。
噪声（）：完全是高维空间中的随机扰动，不遵循任何流形结构。
流速（）：作为图像和噪声的组合，同样是“越界”的，处于流形之外。

因此，让一个神经网络去预测一个“在流形上”的目标（干净图像），和预测一个“在流形外”的目标（噪声或流速），是两个难度完全不同的任务。作者认为，预测干净图像本质上更简单，因为它允许网络专注于学习数据的内在低维结构，而自然地“滤除”高维噪声。

预测 vs. 预测：为何差异如此之大？

扩散模型的工作流程可以简化为：首先通过一个预设的“加噪”过程，将一张干净图像逐步变成纯噪声；然后训练一个神经网络，让它学会从任意时刻的含噪图像中，恢复出一些关键信息，从而实现“去噪”生成。

加噪过程通常表示为：

其中，是时刻的含噪图像，是原始干净图像，是标准正态分布的噪声，从0到1变化。

模型的任务就是从预测出、或流速（定义为）。虽然这三者在数学上可以相互转换，但作者指出，让网络直接输出什么，至关重要。

上表清晰地展示了这三种预测目标（prediction）和三种损失函数（loss）的所有组合方式。例如，当网络预测（-prediction），但使用-loss时，需要先通过公式将转换为，再计算损失。

一个有趣的玩具实验

为了直观展示-prediction的优势，研究者设计了一个“降维打击”实验。他们将一个二维的螺旋线数据（低维流形），通过一个随机投影矩阵“埋”入一个更高维的维空间中。然后，训练一个简单的MLP模型在这个高维空间里生成数据。

结果如上图所示，当观测空间的维度从2增加到512时：

-prediction：始终能完美地恢复出原始的二维螺旋线。即使在时，一个只有256维隐藏层的“能力不足”的MLP也能成功，因为它只需要学习输出那个低维的流形数据。
-prediction 和 -prediction：随着维度的增加，性能急剧下降。在时，它们彻底失败，生成的图像一片混乱。这是因为它们被迫在一个高维空间中去拟合无结构的噪声，这对网络容量提出了苛刻的要求。

JiT：大道至简的Transformer

基于以上洞察，作者提出了JiT (Just image Transformer) 架构。它的设计理念堪称极简主义：

纯粹的ViT：就是一个标准的Vision Transformer，没有U-Net那样的下采样和上采样结构。
操作于像素块：直接将图像分割成大块的patch（例如16x16或32x32），然后送入Transformer。
三无产品：无分词器（tokenizer），无预训练，无额外损失函数（如感知损失）。
坚定地执行-prediction：网络的目标永远是直接输出预测的干净图像。

这种简单性与当前主流的复杂模型（如DiT、LDM）形成了鲜明对比，后者通常依赖于强大的VAE分词器、预训练权重或复杂的网络结构。

实验结果：简单即有效

JiT的性能究竟如何？实验结果令人信服。

预测目标的决定性作用

研究者在ImageNet 256x256分辨率上，使用JiT-B/16模型（patch size为16）测试了所有9种“预测-损失”组合。此时，每个patch的维度是，正好等于模型隐藏层的维度。

结果如上表(a)所示，泾渭分明：

所有采用 -prediction 的组合都取得了优异的FID分数（最低8.62）。
所有采用 -prediction 或 -prediction 的组合都遭遇了“灾难性失败”，FID分数飙升至数百，生成的图像质量极差。

这强有力地证明了，当输入维度很高时，让模型去预测高维的、非结构化的噪声或流速，是一项极其困难甚至不可能完成的任务。相比之下，预测低维流形上的干净图像则要稳健得多。

有趣的是，当patch维度远小于模型隐藏层维度时（如上表(b)，在64x64图像上使用4x4 patch，维度仅48），所有组合都能正常工作。这也解释了为什么在低分辨率数据集（如CIFAR-10）或使用强力VAE降低维度的潜在扩散模型中，这个问题没有暴露出来。

上图直观地展示了-prediction和-prediction在训练过程中的差异。使用相同的-loss，-prediction的训练损失（上图顶部曲线）远高于-prediction，并且其单步去噪后的图像（上图底部右侧）也出现了明显的伪影。

性能对比与可扩展性

JiT不仅在理念上简洁，在性能上也毫不逊色。下表展示了JiT与其他SOTA模型在ImageNet 256x256和512x512分辨率下的比较。

ImageNet 256x256 结果对比

在ImageNet 256x256基准上，最大的JiT-G/16模型经过600个epoch的训练，取得了FID 1.82的优异成绩，完全可以与DiT、SiT等依赖复杂Tokenizer的SOTA模型相媲美。

ImageNet 512x512 结果对比

可以看到，JiT在不使用任何预训练、额外损失或复杂技巧的情况下，取得了与依赖复杂组件的潜在扩散模型（LDM）和像素空间模型相媲美的结果。例如，在512x512分辨率下，JiT-G/32的FID达到了1.78，这是一个非常强的性能指标。

更重要的是，JiT的计算成本极低。由于其简单的架构和对大patch的有效处理，其Gflops（每秒十亿次浮点运算）远低于其他像素空间模型，甚至低于许多潜在空间模型。这使得JiT在训练和推理上都更加高效。

总结

这篇论文的核心贡献是清晰而深刻的：它重新审视了扩散模型的基础，并有力地论证了“直接预测干净图像”（x-prediction）相较于“预测噪声”（ϵ-prediction）的根本优势，尤其是在处理高维原始数据（如像素）时。

JiT的成功表明，一个简单、自包含的“Diffusion + Transformer”范式，有潜力成为未来生成模型的基础。它不仅在性能上具有竞争力，更在概念上回归了“去噪”的本质，为我们揭示了一条更简洁、更高效的道路。

你觉得让模型直接“看图说话”和“猜谜”哪个更简单？这篇论文给出了它的答案。大家对这个方法怎么看？欢迎在评论区留下你的看法！

阅读原文

跳转微信打开

动态列表

MIT何恺明团队新作：让扩散模型回归“去噪”本质，简单Transformer即可实现SOTA性能