动态列表

  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调

MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能

CV君 2025-11-18 15:20 江苏

大道至简,或许这才是生成模型的未来。

今天来自麻省理工学院(MIT)的何恺明团队发表了一篇引人深思的技术报告,对当前主流的扩散生成模型提出了一个根本性的拷问:我们真的需要让模型去预测“噪声”吗?

论文标题直截了当——Back to Basics: Let Denoising Generative Models Denoise(返璞归真:让去噪生成模型真正去噪)。研究者们认为,当前模型普遍采用的预测噪声(-prediction)或流速(-prediction)的范式,可能偏离了“去噪”这一核心理念。他们提出了一种名为JiT (Just image Transformers)的方法,倡导让模型回归初心,直接预测干净的图像(-prediction)。令人惊讶的是,这种看似简单的回归,仅使用一个朴素的、无任何额外组件的Transformer架构,就在ImageNet等高难度任务上取得了极具竞争力的成果,甚至在某些情况下避免了传统方法的“灾难性失败”。

问题的核心:流形假设

聊到技术细节前,我们得先理解一个经典但关键的概念——流形假设(Manifold Assumption)。这个假设认为,我们日常所见的自然数据(比如照片),虽然存在于一个维度极高的像素空间里(一张256x256的彩色图片就有196,608个维度),但它们实际上是分布在一个低维的“流形”上的。你可以把它想象成,三维空间里的一张纸(二维流形),纸上的点虽然有三个坐标,但它们的本质关系是二维的。

这篇论文的核心论点就建立于此:

  • 干净图像(:位于这个低维流形上,结构性强。

  • 噪声(:完全是高维空间中的随机扰动,不遵循任何流形结构。

  • 流速(:作为图像和噪声的组合,同样是“越界”的,处于流形之外。

因此,让一个神经网络去预测一个“在流形上”的目标(干净图像),和预测一个“在流形外”的目标(噪声或流速),是两个难度完全不同的任务。作者认为,预测干净图像本质上更简单,因为它允许网络专注于学习数据的内在低维结构,而自然地“滤除”高维噪声。

预测 vs. 预测:为何差异如此之大?

扩散模型的工作流程可以简化为:首先通过一个预设的“加噪”过程,将一张干净图像逐步变成纯噪声;然后训练一个神经网络,让它学会从任意时刻的含噪图像中,恢复出一些关键信息,从而实现“去噪”生成。

加噪过程通常表示为:

其中,时刻的含噪图像,是原始干净图像,是标准正态分布的噪声,从0到1变化。

模型的任务就是从预测出或流速(定义为)。虽然这三者在数学上可以相互转换,但作者指出,让网络直接输出什么,至关重要

上表清晰地展示了这三种预测目标(prediction)和三种损失函数(loss)的所有组合方式。例如,当网络预测-prediction),但使用-loss时,需要先通过公式转换为,再计算损失。

一个有趣的玩具实验

为了直观展示-prediction的优势,研究者设计了一个“降维打击”实验。他们将一个二维的螺旋线数据(低维流形),通过一个随机投影矩阵“埋”入一个更高维的维空间中。然后,训练一个简单的MLP模型在这个高维空间里生成数据。

结果如上图所示,当观测空间的维度从2增加到512时:

  • -prediction:始终能完美地恢复出原始的二维螺旋线。即使在时,一个只有256维隐藏层的“能力不足”的MLP也能成功,因为它只需要学习输出那个低维的流形数据。

  • -prediction 和 -prediction:随着维度的增加,性能急剧下降。在时,它们彻底失败,生成的图像一片混乱。这是因为它们被迫在一个高维空间中去拟合无结构的噪声,这对网络容量提出了苛刻的要求。

JiT:大道至简的Transformer

基于以上洞察,作者提出了JiT (Just image Transformer) 架构。它的设计理念堪称极简主义:

  • 纯粹的ViT:就是一个标准的Vision Transformer,没有U-Net那样的下采样和上采样结构。

  • 操作于像素块:直接将图像分割成大块的patch(例如16x16或32x32),然后送入Transformer。

  • 三无产品无分词器(tokenizer)无预训练无额外损失函数(如感知损失)。

  • 坚定地执行-prediction:网络的目标永远是直接输出预测的干净图像。

这种简单性与当前主流的复杂模型(如DiT、LDM)形成了鲜明对比,后者通常依赖于强大的VAE分词器、预训练权重或复杂的网络结构。

实验结果:简单即有效

JiT的性能究竟如何?实验结果令人信服。

预测目标的决定性作用

研究者在ImageNet 256x256分辨率上,使用JiT-B/16模型(patch size为16)测试了所有9种“预测-损失”组合。此时,每个patch的维度是 ,正好等于模型隐藏层的维度。

结果如上表(a)所示,泾渭分明:

  • 所有采用 -prediction 的组合都取得了优异的FID分数(最低8.62)

  • 所有采用 -prediction-prediction 的组合都遭遇了“灾难性失败”,FID分数飙升至数百,生成的图像质量极差。

这强有力地证明了,当输入维度很高时,让模型去预测高维的、非结构化的噪声或流速,是一项极其困难甚至不可能完成的任务。相比之下,预测低维流形上的干净图像则要稳健得多。

有趣的是,当patch维度远小于模型隐藏层维度时(如上表(b),在64x64图像上使用4x4 patch,维度仅48),所有组合都能正常工作。这也解释了为什么在低分辨率数据集(如CIFAR-10)或使用强力VAE降低维度的潜在扩散模型中,这个问题没有暴露出来。

上图直观地展示了-prediction和-prediction在训练过程中的差异。使用相同的-loss,-prediction的训练损失(上图顶部曲线)远高于-prediction,并且其单步去噪后的图像(上图底部右侧)也出现了明显的伪影。

性能对比与可扩展性

JiT不仅在理念上简洁,在性能上也毫不逊色。下表展示了JiT与其他SOTA模型在ImageNet 256x256和512x512分辨率下的比较。

ImageNet 256x256 结果对比

在ImageNet 256x256基准上,最大的JiT-G/16模型经过600个epoch的训练,取得了FID 1.82的优异成绩,完全可以与DiT、SiT等依赖复杂Tokenizer的SOTA模型相媲美。

ImageNet 512x512 结果对比

可以看到,JiT在不使用任何预训练、额外损失或复杂技巧的情况下,取得了与依赖复杂组件的潜在扩散模型(LDM)和像素空间模型相媲美的结果。例如,在512x512分辨率下,JiT-G/32的FID达到了1.78,这是一个非常强的性能指标。

更重要的是,JiT的计算成本极低。由于其简单的架构和对大patch的有效处理,其Gflops(每秒十亿次浮点运算)远低于其他像素空间模型,甚至低于许多潜在空间模型。这使得JiT在训练和推理上都更加高效。

总结

这篇论文的核心贡献是清晰而深刻的:它重新审视了扩散模型的基础,并有力地论证了“直接预测干净图像”(x-prediction)相较于“预测噪声”(ϵ-prediction)的根本优势,尤其是在处理高维原始数据(如像素)时。

JiT的成功表明,一个简单、自包含的“Diffusion + Transformer”范式,有潜力成为未来生成模型的基础。它不仅在性能上具有竞争力,更在概念上回归了“去噪”的本质,为我们揭示了一条更简洁、更高效的道路。

你觉得让模型直接“看图说话”和“猜谜”哪个更简单?这篇论文给出了它的答案。大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们