动态列表

  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图

AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准

CV君 2025-11-03 14:54 江苏

304M参数轻量模型,兼顾速度与质量

最近,来自AMD的研究团队带来了一项引人注目的工作,提出了一种名为 E-MMDiT 的新型文生图模型。这名字是“高效多模态扩散Transformer (Efficient Multimodal Diffusion Transformer)”的缩写。顾名思义,它的核心亮点就是“高效”——在有限的计算资源下,实现快速、高质量的图像生成。

在当前AIGC领域,扩散模型虽然效果惊艳,但巨大的训练开销和推理延迟一直是阻碍其普及的两座大山。而AMD的这项研究,正是为了解决这个痛点,旨在推动生成式AI模型的“民主化”。

研究背景:当“大力出奇迹”遇到资源瓶颈

我们知道,无论是Stable Diffusion系列,还是像DiT、Sora这样的Transformer架构扩散模型,它们的成功很大程度上建立在庞大的模型参数和海量训练数据之上。这种“大力出奇迹”的模式虽然带来了SOTA级别的性能,但也让许多资源有限的研究者和开发者望而却步。

因此,如何在保证生成质量的同时,设计出更轻量、更快速的模型,成为了一个极具价值的研究方向。E-MMDiT便是在这样的背景下诞生的,它试图在模型性能、训练成本和推理速度之间找到一个新的平衡点。

E-MMDiT的核心设计理念:Token精简之道

E-MMDiT的整个设计哲学都围绕着一个核心——Token精简(Token Reduction)。因为在Transformer架构中,计算成本与Token数量的平方成正比,减少Token数量是最高效的加速手段。为此,作者们提出了一系列环环相扣的精巧设计。

上图展示了E-MMDiT的整体框架。模型的输入是文本提示(Prompt)和加噪的图像隐变量,输出是去噪后的隐变量,最终由解码器还原成高清图像。整个流程清晰地体现了其高效的设计思路。

极致的视觉压缩:DC-AE

模型首先采用了一个高压缩率的视觉分词器(Tokenizer)——DC-AE,它能将图像压缩到非常紧凑的隐空间表示,压缩比高达 32倍 。这意味着,一张512x512的图像,其Token数量会大幅减少,从源头上降低了后续处理的计算负担。

创新的多路径压缩模块

在经过N1个Transformer模块初步处理后,为了进一步压缩Token,作者设计了一个新颖的 多路径压缩模块(Multi-path Compression Module)。这个模块并非像U-Net那样简单地堆叠下采样,而是并行地创建了两条路径,分别对Token序列进行 2倍4倍 的压缩,并将结果拼接在一起。这种设计能够在进一步减少Token数量的同时,保留不同尺度的特征信息,避免信息瓶颈。消融实验也证明,这种带跳跃连接的多分支设计优于单分支或简单的堆叠压缩。

交替子区域注意力(ASA)

这是E-MMDiT中一个非常巧妙的计算优化。传统的全局注意力虽然效果好,但计算量巨大。一些工作(如UDiT)尝试将Token分组,在组内做注意力,但这又会带组间信息交互不畅的问题。

作者提出的 交替子区域注意力(Alternating Subregion Attention, ASA) 解决了这个问题。如上图右侧所示,在连续的两个Transformer模块中,它会交替使用不同的分组方式。比如,第一个模块里1、2、3、4号Token是一组,在下一个模块里,它们可能被分到不同的组里,与5、6、7、8号等Token进行交互。这样一来,只需通过简单的重组,就能实现跨组的信息流动,既节省了计算,又保证了全局信息的有效融合,还不需要像UDiT那样引入额外的深度卷积。

位置信息强化与轻量化条件注入

  • 位置强化 (Position Reinforcement) :在Token经过压缩和重建(恢复到原始数量)后,模型会再次额外注入位置编码。作者发现,这一简单操作能有效加强模型对空间位置的感知,防止图像内容在深度变换后出现错乱。

  • AdaLN-affine:为了将时间步(timestep)等条件信息融入模型,作者提出了一个更轻量的AdaLN-affine模块。相比于常见的adaLN-Zero,它通过简单的仿射变换生成调制参数,进一步减少了模型参数量和计算量。

实验结果:轻量却不轻质

E-MMDiT的实验结果相当亮眼。作为一个仅有 304M参数 的模型,它在性能和效率上都展示了强大的竞争力。

上图直观地比较了E-MMDiT与其他主流模型在GenEval分数(评估生成图像与文本的对齐程度)和吞吐量上的表现。可以看到,E-MMDiT在吞吐量上遥遥领先,同时保持了非常有竞争力的生成质量。

更详细的数据如上表所示。与同样是轻量级的模型(如SD-Turbo, LCM-LoRA)相比,E-MMDiT在GenEval上表现更优。而与更大、更慢的模型(如PixArt-α, Hunyuan-DiT)相比,它的推理延迟和吞吐量优势巨大,生成一张图仅需几十毫秒。

值得一提的是,这个模型的基础版本是在仅 2500万 公开数据集上,使用一个包含8块AMD MI300X GPU的单节点,花费 1.5天 训练完成的,GenEval分数达到了 0.66 。通过GRPO等后训练技术,还能轻松提升到 0.72 。这充分证明了其架构的高效性和易复现性。

下面是一些由E-MMDiT生成的512px和1024px分辨率的图像,可以看出其生成质量和对细节的把控能力都相当不错。

此外,论文还通过一系列详尽的消融实验,验证了多路径压缩、位置强化、ASA、AdaLN-affine等各个设计模块的有效性,展示了其严谨的研究过程。

总结

CV君认为,E-MMDiT的出现,为文生图领域提供了一个非常实用的高性能、低成本解决方案。它没有追求无止境的参数堆砌,而是通过一系列精巧的结构设计,在计算效率和生成质量之间取得了出色的平衡。这对于推动AIGC技术在更广泛的硬件和场景中落地,无疑具有重要意义。作者也开源了代码,鼓励大家去复现和探索。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

联系我们