动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术



  新智元报道  

编辑:KingHZ
【新智元导读】扩散模型「去噪」,是不是反而忘了真正去噪?何恺明携弟子出手,回归本源!

何恺明新作!

无需使用tokenizer,无需预训练,也无需任何额外的损失函数,何恺明等提出了一种「简单但强大」的方法。

他们证明,Transformer简单地在像素上使用大尺寸图像块(large-patch),就能成为一个强大的生成式模型。

预印本链接:https://arxiv.org/abs/2511.13720

标题:Back to Basics: Let Denoising Generative Models Denoise

论文中给出的生成样本,可见图像质量相当细腻自然,色彩和结构表达力也很强:

作为参照基准,他们在表7和表8中与前人研究成果进行了系统对比。

相较于其他基于像素的方法,新方案完全由通用型Transformer架构驱动,具有计算友好特性,成功避免了分辨率翻倍时计算量的二次增长(详见表8中的浮点运算量统计Gflops)。

表7评估了5万张生成样本的FID和IS指标。

表8呈现了ImageNet在512×512分辨率下的基准测试结果。

JiT模型通过采用更激进的块大小,用较低的计算代价实现出色的生成效果。

他们坦言,推动的是一种面向原始自然数据的「扩散+Transformer」建模理念,强调结构简洁、过程闭环、自洽独立

JiT全面展示了纯Transformer架构在图像生成中的潜力,而这种理念在其他自然数据领域(如蛋白质、分子、气象等)同样大有可为,尤其在这些领域中设计tokenizer往往异常困难。

通过最小化特定领域的定制设计,它们希望,这种起源于视觉的通用建模范式,未来能在更广阔的跨学科场景中落地生根。

以前,扩散模型全搞错了?

论文一开始,就点名:如今的去噪扩散模型走了一条歧路——

其实,它们并不是真正意义上的「去噪」。

它们并不直接生成干净图像,而是预测噪声或带噪声的量。

何恺明新研究的核心观点在于:预测干净数据和预测带噪数据,本质上截然不同

根据流形假设,自然图像数据应分布在低维流形上,而带噪数据则不具备这一特性。

图1. 流形假设示意图

流形假设的核心思想是:自然图像,存在于高维像素空间中的一个低维流形之上。

在此概念框架下,干净图像x位于流形之上,而噪声ϵ或流速度v(例如 v = x - ϵ)本质上则游离于流形之外

这揭示了去噪模型训练的两种根本不同路径:一是训练神经网络直接预测干净图像(即x-prediction),二是训练其预测噪声或含噪量(即ϵ/v-prediction)。

若要高维空间中预测噪声,模型就必须具备极高的容量——因为它需要完整保留噪声的所有信息。

而相较之下,如果目标是预测干净数据,即便神经网络容量有限,也能胜任,因为它只需保留低维信息,同时滤除噪声。

此外,扩散模型还有多个缺陷:

  • 在像素空间或其他高维场景,现有扩散模型仍普遍面临「维度灾难」(curse of dimensionality),难以拓展。

  • 扩散模型严重依赖预训练潜空间,难以自洽,缺乏独立建模能力。

为了解决这个问题,研究者们近年来愈发重视「在像素空间中进行扩散建模」。

何恺明等人认为,这些架构选择的背后,其实是在努力克服预测高维带噪量所需的建模难度。

他们这次回归扩散建模的基本原理:让神经网络直接预测干净图像

最后,他们发现,只要采用最基础的Vision Transformer(ViT),基于大尺寸图像Patch(由原始像素构成)即可实现有效建模。

新方案完全自洽:

无需任何预训练或辅助损失函数,

无需潜空间tokenizer,

无需对抗损失 ,

无需感知损失(即不依赖预训练分类器),

也无需特征对齐机制(因此不依赖自监督预训练)。

他们称之为「纯图像Transformer」(Just image Transformers,简称JiT)。

事实上,「x预测」这一策略并不新鲜,甚至可以追溯到最初的DDPM论文,其代码实现中就包含了这一形式。

论文链接:https://dl.acm.org/doi/abs/10.5555/3495724.3496298

标题:Denoising diffusion probabilistic models

不过在早期实验中,DDPM团队发现ϵ预测性能显著更好,从而逐渐成为标准做法。最后,这一做法无意中成了「历史的遗憾」。

在这项研究同时,也有研究在面向条件生成的世界模型中提倡采用x预测。

预印本:https://arxiv.org/abs/2509.24527

标题:Training Agents Inside of Scalable World Models

新研究并不试图「重新发明」x预测这个基本概念,而是想强调:在高维数据与低维流形共存的语境下,直接预测干净数据这一问题长期被忽视,但却至关重要

扩散模型,一网打尽

扩散模型的预测,可以在三个不同空间中进行:x空间(即干净图像)、ϵ空间(噪声)或v空间(流速)。

选择在哪个空间建模,不仅决定了损失函数的定义位置,也影响了神经网络输出的内容。

需要特别强调的是:损失空间与网络输出空间可以不同,这一选择会对最终性能产生显著影响。

由于三者(x、ϵ、v)之间彼此依赖,只需设定一个网络输出,同时结合另外两个约束条件,即可推导出其余两个变量。

这两个约束条件分别是:

比如,神经网络直接输出x,联立方程组

由此可解出:

这意味着:只要网络输出了x,其对应的ϵ和v都可以显式计算出来。表1的(a)列正是总结了这种情况下的转换关系。

同理,若网络直接输出ϵ或v,即可推出相应的三元关系。表1中的(b)和(c)列分别总结了ϵ预测与v预测下的变换。

综上:x、ϵ、v三者中只需预测其一,另外两个均可由公式推导得出

理论上,损失函数也可以定义在任意空间

已有研究指出:在已知不同预测空间之间重参数化关系的前提下,不同损失形式之间是加权等价的。具体形式已在表1中系统列出。

九种组合与生成过程

将x、ϵ、v三种预测空间与三种损失空间进行两两组合,总共构成了九种合法的建模形式(见表1)。这些组合在数学上各自有效,但两两之间并不完全等价

此外,如图2所示,作者通过一个玩具实验展示:当原始低维数据被嵌入更高维空间后,只有x预测仍能稳定生成合理输出,ϵ与v预测则迅速退化。

无论训练时采用哪种预测/损失组合,推理阶段都可统一转换至v空间(即表1中第3行),再进行ODE采样。因此,这九种形式在生成意义上均合法有效,可根据任务需求灵活选择。

JIT:微微调一下ViT

ViT的核心思想是「图像Patch上Transformer」(ToP,Transformer on Patches)——新提出的架构设计也沿用这一理念。

如图3所示,这种结构与DiT(Diffusion Transformer)非常相似核心差别在于:JiT直接在原始像素上建模,完全依赖x预测

此外,模型在训练过程中也进行条件控制(如时间t和类别标签),采用了adaLN-Zero 方法来实现条件嵌入。

表1总结了9种「损失空间 + 预测空间」的组合形式。

为研究它们在实际表现上的差异,研究者分别使用ViT-Base(JiT-B)模型对每种组合进行训练。

根据ImageNet上的大量实验,作者归纳出以下几个关键结论,进一步验证了 「只用x预测+ViT」 这一策略在高维像素扩散建模中的可行性与优势:

✅ x预测至关重要

  • 高维设定(表2(a),ImageNet 256×256,JiT-B/16,Patch维度为768)中,只有x预测在三种损失函数下都表现稳定,FID最低为 8.62

  • ϵ预测和v预测在所有损失下均表现灾难性失败,FID高达300+;

原因在于:ϵ和v包含高维噪声信息,对模型容量要求极高,而x预测只需保留低维干净数据结构,更容易学习;这与前文玩具实验的发现一致(图2)。

⚖️ 损失加权不是万能解法

  • 类似研究也尝试组合不同预测与损失空间,在低维数据集上几乎所有组合都能成功;

  • 但在高维设定下,如表2(a)所示,损失空间的切换无法拯救ϵ/v预测。

x预测在三种损失空间下都有效,而ϵ/v预测在所有损失权重下均失败,说明关键不在加权,而在预测对象本身。

表3展示了在不同噪声水平下(通过调整logit-normal分布的参数µ)各预测方式的FID变化:

  • 对于x预测,适当提高噪声水平确实能改善性能(从14.44降至8.62);

  • 但对ϵ/v预测而言,再高的噪声也无济于事,灾难性失败无法避免,说明问题出在信息维度过高、无法有效传播。

图4展示了对线性Patch嵌入层加入低秩瓶颈(bottleneck)结构后的结果:

结果发现:适度瓶颈不仅不会崩溃,反而能提升性能——FID下降最多达到约1.3分。

这说明信息压缩有助于网络聚焦于低维有效特征,契合流形假设与人类感知机制。

虽然理论上增加模型容量可能有助于提升性能,但在高维下,这种方法成本高昂且并不必要。

表5和表6显示,哪怕Patch维度高达3072或12288,只要采用x预测,标准宽度模型依然能稳定工作。

模型设计与输入维度可以部分解耦,仅需按比例调整噪声强度即可适配更大分辨率。

JiT:不止无需tokenizer

在前文分析基础上,作者最终选择使用「x预测 + v损失(v-loss)」作为训练方案,对应表1中的组合 (3)(a)。

优化目标函数如下:

训练步骤(算法1):

采样步骤(算法2):

Transformer的关键优势在于其结构设计与任务解耦,因此可以从其他领域(如自然语言处理)借用先进模块来增强性能。

基础版(Baseline):使用SwiGLU和RMSNorm


加入旋转位置编码RoPE与qk-norm(注意力归一化) 


加入 in-context类别Token嵌入:不像ViT仅添加1个CLS Token,默认使用 32个类别Token

这些优化组件均来自语言模型研究,但在视觉扩散任务中同样显著提升性能:

在高分辨率像素生成上,表5表明JiT无惧维度灾难; 表6则验证了JiT的可扩展性。

Just Image Transformers(JiT)证明了这样一个核心事实:只用原始像素+x预测+基础ViT结构,就足以实现顶尖性能。

相较其他方法,JiT具有以下独特优势:

结构极简 无需预训练、辅助损失或感知模块;

通用高效 利用标准Transformer即可训练;

稳定扩展 分辨率、模型规模提升不影响性能;

资源友好 FLOPs 控制良好,无维度灾难;

可进化性强 未来可接入更多语言模型模块进行微调提升。

最后,欣赏一下更多未筛选样例(un-curated examples)。

左右滑动查看

更多细节,请参考原文。

何恺明弟子:黎天鸿

论文一作为黎天鸿。

目前,他是麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)的博士后研究员,导师是何恺明。

在此之前,他在麻省理工学院攻读博士和硕士。

他本科毕业于清华大学「姚班」,获计算机科学学士学位。

他的研究兴趣集中在表征学习、生成模型,以及这两者之间的协同作用。他致力于构建能够超越人类感知、理解和建模世界的智能视觉系统。

参考资料:
https://arxiv.org/abs/2511.13720
https://www.tianhongli.me/

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652646869&amp;idx=2&amp;sn=fe447340eb8a9b753118e570eabe1072&amp;chksm=f0ff7fa4349a78d5719d32b55a1d466df4474c7473a6f01ff8d58a5df29025a3639600a25c52&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/96ek3B81ig&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们