动态列表

  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜
  • 刚刚,Anthropic紧急换帅!新任CTO执掌算力命脉,直面OpenAI千亿赌局
  • Gemini 3.0 Pro内测流出,编程实力惊人!下周上线
  • 刚刚,奥特曼首曝:AI取代CEO后,我想去当农民!
  • 华人主导谷歌SLED,论文登顶会!一键让模型学会自救
  • LeCun考虑辞职!Meta AI百亿豪赌引爆「内战」,逼走首席科学家
  • NeurIPS 2025 | RAD:基于大规模3DGS孪生数字世界的端到端强化学习训练策略
  • 小米 17 系列销量超百万;苹果新产品泄密源头疑为越南工厂;低价版 model Y 现身官网代码|极客早知道
  • 刚刚,这家0产品0模型就估值854亿的公司,终于发布了首款产品!
  • 刚刚,奥特曼亲赴,韩国「举国」投靠!
  • 奥特曼「一张脸」引爆全球狂欢!Sora 2冲上APP榜第三,邀请码炒到1250元
  • 60岁老人AI养生三个月吃进医院!「AI精神病」全球扩散,OpenAI急招医生
  • 一杯咖啡,3亿美金!斯坦福天才少女退学创业,Meta AI大牛排队加入
  • 武大新作MASt3R-Fusion:融合IMU与GNSS,为新一代视觉SLAM注入“多感官”智慧
  • 中科大、清华、快手等发布OpenGPT-4o-Image:为多模态AI打造的“超级燃料”,图像编辑性能提升18%
  • 历史首位,马斯克身家突破 5000 亿美元;王腾注销、清空多个社媒账号;美国演员工会抵制 AI 演员
  • 刚刚,OpenAI Sora 2重磅登场!首个APP上线,或将成为AI时代新TikTok
  • Sora 2全网疯狂实测:以假乱真、脑洞大开、虚实难分|附首个APP教程和邀请码
  • OpenAI和DeepMind大佬离职联手,誓用AI科学家实现室温超导!已融3亿美元
  • 南洋理工联合商汤提出Visual Jigsaw:像玩拼图一样,显著提升多模态大模型的视觉理解力
  • 天津大学联合腾讯提出Wan-Alpha:一键生成高质量透明视频,发丝级抠图不再是梦
  • OpenAI 深夜重磅推出新视频模型和独立 App;英伟达市值突破4.5万亿美元;特斯拉预计推出第三代人形机器人 | 极客早知道
  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场
  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道

腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI



  新智元报道  

编辑:编辑部 YJK
【新智元导读】AI生图圈,迎来新王者!今天,LMArena最新榜单出炉,「混元图像3.0」霸气登顶文生图任务,C位出道。这波操作,直接把开源AI生图的天花板拉到全新高度。


一觉醒来,AI生图「王者」登场!

LMArena最新发布榜单:「混元图像3.0」在文生图任务中,一举夺魁,力压群雄。

它直接碾压了谷歌火遍全网Nano banana模型,以及字节Seedream 4。

对此,LMArena官方发帖表示祝贺。

不得不说,这一成绩太顶了,而且,「混元图像3.0」完全开源、免费。

9月28日,腾讯正式发布并开源了「混元图像3.0」——业界首个开源工业级原生多模态生图模型。

它的性能直接对标闭源模型,且刷新了开源AI生图模型的SOTA。

发布仅3天,「混元图像3.0」强势登顶Hugging Face热榜,蝉联一周第一,如今又在LMArena上斩获亮眼的战绩。

这一系列表现,让业界再次关注到腾讯混元模型的进展。

回望2023年到2024年,相较国内其他实力玩家,腾讯混元一度显得有些「低调」——其混元直到2023年9月才正式上线。彼时实测中规中矩。

2024年,混元陆续开始发力开源,5月开源首个中文原生DiT文生图模型HunyuanDiT,11月推出首个开源文本模型HunYuan-Large和3D生成模型,12月开源混元视频生成大模型HunyuanVideo。

这时混元在多模态开源领域的优势开始逐渐显现,其生图与生视频模型相当一段时间内是社区最受欢迎的开源模型。

而进入2025年,混元仿佛按下了加速键,开启了「狂飙式」的开源节奏,密集发布轮番轰炸。

生文领域,从HunYuan-A13B到一系列小模型,再到翻译模型Hunyuan-MT-7B,混元的开源势头紧追头部模型,质量更是稳步提升。

如果说图像、视频、文本模型的开源让混元崭露头角,那么3D系列模型直接让它站上了世界舞台聚光灯下,从其3D 2.1版本开源以来,混元的3D生成一直在霸榜,成为名副其实的全球最强;最近还发布了首个支持物理仿真的开源世界模型。

如今,图像领域,混元同样不遑多让。

我们已经看到,最新「混元图像3.0」连续两次霸榜,成为AI文生图最能打的模型。

但有一说一,目前图片领域都已经在卷图片编辑了,混元这里还是缺了的。

官方也表示,这个版本的后训练只完成了文生图能力,图像编辑、多轮交互等版本在研发中。

毕竟基座模型都原生多模态了,图片编辑肯定能支持。混元确实要加快了。


一手实测,属实惊艳到了


回到最新上线的「混元图像3.0」,不仅具备了强大的常识推理、精准的语义理解能力,生成的图像真实,更富有极致美感。

而且,它还能全面支持中英文及长文本渲染。

自亮相以来,已有不少网友抢先实测,结果纷纷被「混元图像3.0」的强大表现所折服。

左右滑动查看

如今,所有人皆可通过腾讯混元官网和腾讯元宝,开启图像生成的畅玩体验。

传送门:https://hunyuan.tencent.com/modelSquare/home/play?from=modelSquare&modelId=289

展开来说,混元图像3.0(Hunyuan Image 3.0)具备了以下三大特点:

  • 原生多模态模型支持利用世界知识进行推理,目前主要开放生图能力

  • 精确文字生成,超长文本渲染

  • 具有精确的语义理解能力,能够实现超长的文本语义理解,整体美学接近商业级模型


上知天文,下知地理


混元图像3.0支持世界知识推理,熟悉地理、数学、物理、历史、文学等常识,画图更懂提示词。

比如,地球四季的形成涉及到地球绕太阳公转地轴倾斜。

如果图像模型做不到「上知天文,下知地理」,那下列指令生成的结果可能完全错误。

但这次混元新模型生成的结果科学性完全有保证:

prompt:画图解释一下地球四季的形成。


中学物理,也不在话下:

prompt:四格动画,解释牛顿三大定律。


看看混元图像3.0眼中的「三打白骨精」:

极致美学:细节,细节,更多的细节


混元图像3.0可以理解很复杂的指令,最多支持1000 Token;而且开源模型做到了工业级别的美学输出。

换句话,这次可以支持更多的细节控制:风格、背景、基调、主题、色彩、动作、光线……想要什么效果,直接输入,混元图像3.0一键直出:

prompt:这是一幅极具视觉张力的祭志风海报。整体笼罩在暗黑幽灵般的神秘氛围中,背景采用简约高级的纯红色,干净纯粹却不显张扬。为画面奠定了沉稳而富有张力的基调,画面主体是古风汉服服饰的超级近距离特写,以暗黑橘色柔光为主光源,勾勒出人物清晰而细腻的轮廓,人物露着肩膀,姿态魅惑又带着一丝魅惑,眼神妩媚勾人。


在整体暗光环境中尤为突出,同时,人物周身装饰着暗黑低饱和的银辉光效果,如同月光般清冷朦胧,为这份妖娆增添了几分疏离的幽灵感,强化了暗黑风格的神秘气质,让特写画面更具超强的视觉冲击力。

混元一键生成高品质摄影、电影质感的图像:

prompt:电影感的城市街角场景:一栋暖橙色外墙、带横向白色条纹的建筑,底部是粗糙的石质基座;左侧有一扇带百叶的窗;窗旁用细绳悬着一盏黑色吊灯,在墙面投下清晰阴影。 


左上方强烈阳光倾洒,使被照亮的橙色墙面与右侧深棕色阴影形成锐利对比。 


画面下方的人形剪影沿人行道行走。整体为低饱和、写实风格,墙面肌理与石粒细节丰富,明暗对比强烈;色调以暖橙与深棕为主,营造静谧都市氛围;剪影姿态富有动感。 


背景隐约可见另一栋建筑与光秃树木的轮廓。8K 分辨率,高品质摄影,自然光,黑色电影,还是专业摄影师的作品。

在人物生成方面,混元图像3.0在细节上把控也非常不错。

因为支持更长、更复杂的指令,利用混元图像3.0可以一次性生成九宫格。比如,可直接输出多个表情包:

左右滑动查看

类似的,可以制作其他风格或类型的表情包:

得益于精确的语义理解能力,混元图像3.0可理解超长的文本,解放更多创意,可以更快完成原型设计:

左右滑动查看

混元官方X账号还有各种创意图案的生成。

左右滑动查看

下笔如有神:长文本渲染


文字生成、长文本渲染一直是图像生成模型的难点。

这次混元3.0实现了「精确文字生成、长文本渲染」,对于中文海报生成等场景更加友好。

比如,混元图像3.0对「图像生成,解放创意」的理解:

左右滑动查看

prompt:生成一幅海报,宣传AI日新月异,进步神速,突出图像生成领域解放创意。

对于更长的文本,这次混元渲染也没问题:

prompt:一张空白的宣纸上,手写体写着李白的作品 

第一行写着: “春夜宴从弟桃花园序”,"李白",; 

第二行写:“夫天地者,万物之逆旅也;光阴者,百代之过客也。” 

第三行写:“而浮生若梦,为欢几何?” 

第四行写:“古人秉烛夜游,良有以也。况阳春召我以烟景,大块假我以文章。” 

第五行写:“会桃花之芳园,序天伦之乐事。” 

第六行写:“群季俊秀,皆为惠连;吾人咏歌,独惭康乐。幽赏未已,高谈转清。” 

第七行写:“开琼筵以坐花,飞羽觞而醉月。” 

第八行写:“不有佳咏,何伸雅怀?如诗不成,罚依金谷酒数。”

英文渲染也没问题:


核心技术揭秘
架构革命性创新


腾讯最新发布的混元图像3.0彻底颠覆了传统图像生成模型的架构,将语言、视觉和图像生成融为一体,仿佛赋予了AI一个「能画图的大脑」。

架构创新


不同于以往DiT系列(Diffusion Transformer)那种让大模型仅充当文本编码器的做法,混元图像3.0采用了80B参数规模的MoE架构,拥有64个专家网络,但每次推理时仅激活约13B的参数

也就是说,它相当于汇聚了64位各有所长的绘画「大师」,但每次作画只让其中最相关的少数专家上场,各展所长。

这种门控机制使模型既享有了海量参数带来的知识容量,又避免了让所有专家同时运转的低效,在保证推理速度的同时极大提升了模型能力。

混元图像3.0由此做到了「模型大」「效率高」两不误,真正实现了智慧与效率兼备,颠覆了以往人们对大模型「笨重耗资」的刻板印象。

混元图像3.0在一个自回归Transformer中统一处理文本理解、视觉解析和高保真图像生成。

这种深度融合使模型天然继承了强大的语言理解和推理能力,能够像一位自带大脑的画家那样利用庞大的世界知识进行构思,其生成效果已可比肩业界顶尖的闭源模型,被誉为开源领域最强的图像大模型。

广义因果注意力机制


广义因果注意力机制是混元图像3.0的一大创新,它让模型在同一框架中既擅长「语言思考」,又具备「画面全局感」。

简单来说,文本Token仍遵循语言模型的因果(自回归)注意力,使模型保留链式逻辑推理能力;而图像Token则被赋予全局注意力,允许模型「眼观六路」,整体把握画面的空间信息。

这种广义因果注意力构建了兼顾「语言因果推理」和「图像全局建模」的注意力矩阵,在统一架构下真正实现了理解与生成的一体化融合。

换言之,模型在生成图像的过程中既不会丢失语言思维的连贯性,也能满足图像生成对全局一致性的需求,实现所「想」即所「画」的高度统一。

在模型设计上,混元图像3.0采用了VAE+ViT双编码器结构:通过变分自编码器(VAE)和视觉Transformer(ViT)的联合特征来处理图像信息,并将其与文本一并映射到统一的Token序列中。

生成端则借鉴了Transfusion架构思想,将扩散式图像生成过程无缝嵌入LLM架构里,实现了文本和图像信息的灵活交互。

通俗地说,过去模型往往先处理完文字再处理图像,而混元图像3.0则是让图文在同一「语句」中交织在一起处理。

模型能够一边「读懂」用户的指令,一边在「脑海」中勾勒画面细节,两种模态相辅相成,再也不需要割裂地分别对待。

这种统一序列的设计大大提升了语义对齐和细节控制的能力,即使是复杂场景也能创作得稳定连贯。

更令人称道的是,混元图像3.0在生成图像时展现出了近似CoT推理般的思维过程。

它内置了原生的图文交织推理机制,模型仿佛能在「动笔」前先经过一番缜密的思考:逐步推理出对指令的理解、分解复杂逻辑关系,乃至构想画面的布局和元素细节。

这种能力得益于训练中引入的大量CoT推理数据,让模型学会了自主规划从理解意图到最终「落笔」的全过程。

举例来说,用户让它「画出解方程的步骤图」或「制作四格科普漫画」,混元图像3.0都会先在脑海中演算出步骤或剧情,再将推理结果转换成一张张合乎逻辑、细节丰富的图像。

这意味着模型不再是收到指令就直接下笔的「机械手」,而更像是一个会三思而后行的AI艺术家——先「思考」清楚再「动笔」创作,因而生成的图像格外精细、贴合意图,让人直观感受到其理解力之强。

注意力掩码机制


混元图像3.0通过这样的「图文交织」训练范式,让模型习惯在长序列中同时处理多个图像和文本。

这样一来,一个提示词下多张图片前后呼应、风格统一、情节连贯成为可能。

然而,让AI同时绘制多幅图像也带来了潜在的问题:这些图像可能会互相「串台」,干扰彼此的内容。

为此,混元图像3.0引入了一种专门的注意力掩码机制,可以形象地理解为在AI大脑里拉起了隔离帘幕。

当模型正在专注「润色」一张尚处于生成过程中的画面时,它看不到旁边那些已经完成、干净的图像。

每幅图都在各自独立的创作空间中完成,不会被其他画面的内容所污染。

这样的隔离就像让每张画都有了自己的工作室,确保AI在多图场景下也能稳定发挥——生成的多个画面逻辑一致、互不矛盾。

二维位置编码


为了让AI更「懂」图像的内部结构,混元图像3.0还教会模型去感知画面的二维布局。

原本模型处理文本时,只能沿着一条直线(一维顺序)理解位置;

现在,它获得了二维的位置感知,就好比在每张图上铺了一层看不见的网格坐标。

模型为图像Token引入了二维位置编码,让每个视觉片段都带有原生的X-Y坐标定位。

通过这种扩展,每个图像Token都「知道」自己在画面中的横纵坐标,从而对图像的空间结构有了天然的直觉。

这意味着AI在理解和生成图像时,不再只是逐像素地盲画,而是仿佛真正明白了左上角在哪里、右下角有什么。

这就好比模型天生长了一双「画家的眼睛」,对画面中的上下左右有直觉般的感知,不会在生成过程中丢失空间关系。

同时,模型支持多分辨率自适应输出,可以根据提示内容自动预测最合适的图像尺寸和宽高比。

如果用户没有特别指明分辨率,混元图像3.0会智能分析场景:人像肖像可能选取竖幅比例(如3:4),风景宏图则偏好横幅长宽比(如16:9),并针对细节丰富的画面提高分辨率,以确保清晰度。

这种动态调整相当于模型会替用户选好「画板」——让每幅图都在最适合的尺寸上呈现最佳的构图和视觉效果,省去了繁琐的手动参数设定,体现出模型对视觉创作的专业理解。

渐进式训练范式


在训练策略上,混元图像3.0经历了精心设计的多阶段进化。

首先是渐进式的预训练:模型从低分辨率(如256px)的图像和粗粒度标注学起,随着训练推进逐步提升至512px乃至高清的1024px,并不断加入更复杂精细的图文数据。

在高分辨率阶段,研发团队额外融入了图像编辑、多图融合等任务数据,以及激发推理能力的CoT案例,让模型在理解和生成长篇幅、多回合内容上也驾轻就熟。

接着进入指令微调阶段,使用格式化的文本-图像指令数据强化模型对用户意图的遵循,使其更懂得听话照做。

最后,经过多轮人类偏好强化训练,模型的审美品味和创作水准被打磨得更为精湛:包括精选高质量样本的监督微调(SFT)、优劣对比的直接偏好优化(DPO),以及引入奖励模型信号的强化学习策略(如MixGRPO、SRPO等),都在持续优化生成结果的细腻度与美感。

通过由浅入深、循序渐进的训练流程,混元图像3.0不仅学会了画画,更学会了如何画得更好、更美,充分迎合人类审美和创作偏好。


原生多模态成绩亮眼
开源生态爆发


放眼全世界,OpenAI、谷歌如今开发大模型的重点,不再是单模态,比如语言、语音、视频等。

多模态早已成为业界共识。

作为国内头部科技巨头,腾讯也不例外。原生多模态不仅仅是为了顺应潮流,而是让AI具备真正「智能」的必经之路。

这一次,腾讯的成功并非偶然,是其在AI领域不断深耕、技术积累的结果。

混元系列,作为腾讯的核心AI大模型,已经在多模态领域展现出越来越丰富优势——

从3D生成持续领先,到图像生成逐渐赶超,腾讯正构建一个覆盖文本、图像、视频、3D生成的全链路AI体系。

在3D生成领域,混元3D已经是绝对的王者,不断迭代,目前最新3.0版本——Hunyuan3D 3.0,精度直接提升3倍,几何分辨率达到1536³,细节逼真到惊人。

在图像生成领域,此前的混元图像2.1 拿下开源最强,到这次的图像3.0直接跟闭源模型不分高下。

文生图阶跃式进化,赶超顶尖闭源模型,也让其接下来的图生图、图片编辑能力十分让人期待。

在视频生成领域,文生视频模型也在不断进化。最近开源的「视频音效生成模型」HunyuanVideo-Foley、视频-虚拟人模型HunyuanVideo-Avatar收获了一众好评。

开源,是腾讯的另一杀手锏。

「混元图像3.0」一发布就火热霸榜Hugging Face,背后离不开腾讯在开源社区的持续投入,推动全球开发者共建生态。

目前,这款文生图模型已在GitHub斩获1.7k星。

腾讯混元团队还透露,混元图像3.0图生图、图像编辑、多轮交互等版本将于后续上线。

项目地址:https://github.com/Tencent-Hunyuan/HunyuanImage-3.0

生态赋能,无缝融入亿级场景


更让人无法忽视的是,腾讯拥有庞大的生态优势,旗下丰富的产品及场景,能将AI无缝集成到社交、游戏、广告等实际落地应用中。

2025年被视为AI「应用元年」,真正的挑战在于落地速度与迭代能力。

如今,混元正加速融入各类场景——推出AI播客并在ima、腾讯新闻上线,支持腾讯会议AI小助手、微信读书AI问书AI助手对会议内容、整本书籍的理解和处理。

同时,腾讯云的AI基础设施支持企业定制化部署混元模型,广泛覆盖教育、医疗、金融等行业。

混元正通过开源积累生态,场景与技术互相反哺,构建出腾讯特色的AI之路。

参考链接:

https://x.com/arena/status/1974502371721162982

https://x.com/TencentHunyuan/status/1973324167077306866


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652632263&amp;idx=1&amp;sn=963cb62b44cc5a0efdc78efd283f5d1f&amp;chksm=f0e2910d160d669abeb406c6c19a325f50ccbe576d63a0d634cd6239c1cab91cdabde4bb5d19&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/N9fBlpjrlS&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们