动态列表

  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 导师放养真的会毁掉一个人……
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬
  • 力压哈佛MIT!北交大、清华勇夺2025国际大学生程序设计竞赛金牌
  • 长视频生成可以回头看了!牛津提出「记忆增稳」,速度提升12倍
  • 0.01%参数定生死!苹果揭秘LLM「超级权重」,删掉就会胡说八道
  • 今天,特朗普闭门宴请了大半个硅谷的CEO,马斯克老黄没来
  • 追觅给洗地机,加了一双「灵巧手」
  • 被网友逼着改名的谷歌Nano Banana,正在抢99%时尚博主的饭碗
  • 不止会动嘴,还会「思考」!字节跳动发布OmniHuman-1.5,让虚拟人拥有逻辑灵魂
  • 外滩大会主论坛阵容揭幕!顶级学者、产业领袖和青年创新力量共话未来
  • 第一家 AI 浏览器公司,卖了 43 亿!
  • Nano Banana爆火之后,一个神秘的「胡萝卜」代码模型又上线了
  • 推理加持的排序SOTA!把“召回+相似度”写进RL,文档排序更稳更准
  • KDD 2025 | 图异常基础模型来了:跨域零样本、少样本微调,原型残差全拿下
  • 透明度罕见!百川公开M2完整技术报告,强化学习新范式引发行业关注
  • 博士申请 | 香港中文大学(深圳)游宇宁老师招收人工智能+生物医药全奖博士/实习生
  • 沉寂一个月,openPangu性能飙升8%!华为1B开源模型来了
  • 多模态大模型持续学习系列研究,综述+Benchmark+方法+Codebase一网打尽!
  • TPAMI重磅综述:一文读懂人类动作视频生成的五大阶段与三大多模态技术
  • 拓展天文学认知边界,Google DeepMind用AI助力LIGO,填补宇宙演化史缺失环节
  • 拍我AI限时免费6天!手办、宠物、奇幻创意随你生成不限次!
  • 传 DeepSeek AI 代理新模型年底发布;马斯克「金色擎天柱」首曝;比亚迪不回应销量下调传闻
  • 通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持
  • 83岁用DeepSeek抢单,96岁凭AI挣养老钱!这群80+老人比你还会玩AI
  • 「纳米香蕉」LMArena两周500万投票,引爆10倍流量!谷歌、OpenAI扎堆打擂台
  • DeepSeek大招曝光?梁文峰督战超级智能体:能自主学习,或年底发布
  • 24999 元!华为推了一个「最大」的 Mate!
  • 刚刚,李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
  • 又多了一个哄孩子AI神器,一张破涂鸦竟能秒变迪士尼动画
  • PosterGen:告别学术海报制作烦恼,从PDF一键生成「演示级」可编辑PPTX学术海报
  • 「一句话生成爆款视频」,这款 AI 流量神器有点东西|AI 上新
  • Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
  • 刚刚,OpenAI发布白皮书:如何在AI时代保持领先
  • 科研AI的进化论!系统梳理600+数据集与模型,上海AI Lab等发布科学大语言模型全景式综述
  • 腾讯 ARC Lab 开源 IC-Custom :一个强大且灵活的图像定制化工具!
  • 长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
  • 全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
  • SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
  • 北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
  • 听见空间!ASAudio全景综述:空间音频表示→理解→生成全链路
  • 多模态大模型,真的“懂”世界吗?ICML 2025高分论文实锤核心认知盲区
  • 拜读了某大佬发表的N篇顶会,原来论文“灌水”是这么玩的
  • 特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
  • 让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
  • 传特斯拉 Model Y L 日均订单过万;苹果联手谷歌,Siri 整合 Gemini;优必选获 2.5 亿,全球最大人形机器人订单
  • UCSD首个智能体浏览器发布!多页面设计,颠覆传统交互
  • Hinton最新警告:杀手机器人或将带来更多战争,最大担忧是AI接管人类
  • AI教父Hinton诺奖演讲首登顶刊!拒绝公式,让全场秒懂「玻尔兹曼机」
  • 奥数金牌只是序章!OpenAI谷歌彻底打脸预言家,AI巨浪势不可挡
  • 出货 1000 万台硬件后,我们和「凯叔讲故事」聊了聊「AI玩具」的核心
  • 他不懂代码,却用 AI 黑掉 17 家医院和机构,Vibe Hacking 让全世界变成缅北
  • 刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
  • Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
  • ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
  • ICLR 2025|KGExplainer:让新知识的发现“有理可循”
  • 入局AI4S?CPO宣布「OpenAI for Science」计划:打造下一代科学工具
  • 2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
  • 从复刻魔术开始,RoboMirage打开了机器人仿真的新世界
  • 宇树科技官宣:年内提交IPO,或将冲刺科创板
  • 其实,扩散语言模型在最终解码之前很久,就已确定最终答案
  • 语音分离最全综述来了!清华等团队深度分析200+文章,系统解析「鸡尾酒会问题」研究
  • 原子思维上线!Agentic Deep Research再进化:推理更深、答案更准
  • Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力
  • 北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
  • 【9月9日直播】大模型复杂推理技术:如何重塑AI推理逻辑
  • USO:鱼与熊掌亦可兼得,字节跳动提出统一框架,完美融合主体与风格生成
  • 刚刚,Anthropic在质疑声中获130亿美元融资,估值达1830亿
  • IROS 2025 | 机器人衣物折叠新范式,NUS邵林团队用MetaFold解耦轨迹与动作
  • iPhone 17定价曝光,仅Pro涨价;李斌:4季度实现月卖5万台车;COD「使命召唤」大电影官宣|极客早知道

不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁



  新智元报道  

编辑:编辑部
【新智元导读】谷歌「香蕉」P图爆火全网,发布不过10天,终极平替就来了。今天,Vidu Q1全球上线「参考生图」功能,一次7张图,人物、背景、道具随意组合,逼真还原还能脑洞大开,效果完胜Flux Kontext,直逼Nano Banana。

谷歌Nano Banana掀起的狂欢海啸,完全不亚于ChatGPT横空出世。

它,号称是PS的终结者。

以往,Photoshop耗费数个小时完成的修图,Nano Banana仅用一句话,最多30秒神速完成。

意想不到的是,谷歌发布不到10天后,国产版「Nano Banana」诞生了!

今天,Vidu Q1全球同步上线「参考生图」功能,一举击碎国内参考天花板,让图片生成进入「生产级」时代。

一次扔进7张图,Vidu Q1参考生图稳拿捏,逼真还原的同时,还能随心所欲创作。

在一致性、美学、真实性、清晰度、语义理解综合评分上,Vidu Q1参考生图完全碾压Flux Kontext,与Nano Banana相媲美。

Vidu Q1参考生图的易用性,简直就是创作者的「生图利器」,万物皆可合成、万物皆可替。

外国网友激动地表示,「这简直是,目前最佳的AI参考生图的工具。每次输出的效果绝了」!

还有人盛赞Vidu Q1参考生图一致性,并称,Vidu这种低调的实力派,真正推动了AI领域的创新。

下面就来扒一扒Vidu Q1参考生图的「合成大法」,保你看完脑洞大开。


国产「Nano Banana」出世


Vidu Q1「参考生图」的核心——只要参考够多,就能还原够真。

一次7张图,打破国内天花板


Vidu Q1支持单次最多7张参考图,这一能力不仅在国内处于领先地位,更是行业顶尖水平。

相较之下,市面上的竞品AI工具,通常仅支持1-3张参考图。

在处理多元素场景时,比如同时参考多个人物形象,很多工具的生成结果往往支离破碎,不仅模糊,且经常出现相似但不像的情况。

Vidu Q1参考生图则突破了这些限制,可自由组合多张图片,实现无缝融合。

举个栗子,同时输入如下五张图,一张主体,一张背景,还有三张道具图,并提示小熊做出抛球的动作。

prompt:[@图1]的人物和[@图2]的车一起出现在[@图3]的场景里,[@图1]两脚分开站在[@图2]车前,[@图1]两手张开用[@图4]和[@图5]的球做着小丑抛球的动作,[@图1]和[@图2]在画面中小一些


如下的输出图中,Vidu Q1参考生图可以做到高效整合,生成出流畅、自然的结果,毫无违和感。

接下来,上一个难度的,不仅要为主体换衣,还要融合字体、马这些要素。

prompt:[@图1]穿着[@图2]服装,[@图1]头戴[@图3]帽子,骑着[@图5]马,背景是[@图4],右上角印有[@图6]logo


Vidu Q1参考生图还能同时做到「AI参考+AI生成」,将所有的参考放在一张图中,并给出一个完整的提示。

prompt:[@图1]一个明亮的北欧风房间,木质书桌上放着粉色笔记本和玻璃杯,旁边花瓶里有一枝粉色花朵,桌角有小多肉植物。地上有毛绒坐垫和白色帆布包。一位戴玫瑰金圆框眼镜、穿米白色针织背心和白裙的温柔女生站在房间里,安静地看着书桌,整体氛围清新治愈。


可以看到,不论是图中有的,还是指令要求的,Vidu Q1参考生图都能做到完整还原。

其实上述案例是一次参考了10个物品,这意味着只需把多个物体放在一张图中,其实Vidu Q1参考生图可以参考的物体数量远不止7张,而是无上限的,简直是生图领域的大杀器。

主体一致性,全面超越


更令人惊叹的是,Vidu Q1参考生图在一致性上的表现堪称惊艳,全面超越了Flux Kontext等同类产品,甚至也超过了Nano Banana。

无论是多人互动、多场景切换,还是多次生成,它都能保证人物的面貌、特征高度稳定。

诸如多角色混淆、人物走样、服饰或细节丢失等常见问题,在Vidu Q1参考生图中几乎不存在。

这种卓越的主体一致性,正是Vidu Q1参考生图迈向「生产级应用」的核心优势。

相较于Nano Banana,Vidu Q1参考生图真实表现又如何?

prompt:图1人物拿着图2展示


就来一张简单的,图1拿着图2展示,Vidu Q1参考生图非常自然地呈现,而Nano Banana米饭摆放有些不合理。

左:Vidu;右:Nano Banana

再来看一个案例,不同模型的表现又如何?

prompt:图1人物拿着图3吃图2


可以看到,Vidu Q1和Nano Banana保持了原图的高度一致性。

而Flux.1 Kontext在衣服、人脸一致性上表现欠佳,且蛋糕比例失调,没有体现勺子这个元素。

从左至右:Vidu Q1、Nano Banana、Flux.1 Kontext

假设让Vidu Q1和Nano Banana,补全如下这张彩虹图,谁做的更好?

prompt:把彩虹的右半边补全,形成半圆彩虹


实测可以发现,Nano Banana未能准确理解提示词中,彩虹补全要求,仅生成了另外一半彩虹。

而Vidu Q1参考原图,成功补出未出现在图片中的另一半彩虹,展现了极强的画面理解力和一致性。

左:Vidu Q1;右:Nano Banana

高还原度,所见即所得


Vidu Q1参考生图不仅支持多张参考图输入、主体一致性出色,还在还原度上实现了质的突破。

它在保持参考图特征的同时,能生成高度贴近原始输入内容,真正做到「所见即所得」。

业内常见的参考模糊、相似却失真的问题,在Vidu Q1参考生图面前迎刃而解。

接下来,要PK就来一个复杂的,一次上传五张图,具体如下:

prompt:侧面视角,[@图1]站在[@图3]灶台边[@图2]锅前手中拿着大勺[@图5]搅拌,锅里装着[@图2],背景[@图3][@图4],动漫风格,2D,动画风格,


显然,Nano Banana在主体一致性上表现欠佳,核心元素如衣袖、领口花纹细节,与原图差异明显。

而Vidu Q1展现了惊艳的实力,不仅完美还原动漫主体,连手套、衣服等细节都实现了1:1精准复刻。

左:Vidu;右:Nano Banana

再比如,参考图中男子,将其背景P为教室。

prompt:参考图中人物,修改背景为人物在班里座位上认真听课


以下四大模型,在背景生成上各有特点。

但在人物脸部特征、服饰细节上,Vidu Q1参考生图都做到了最逼真还原。

Nano  Banana生成的人物双眼皮消失,发型与服装均出现变化;Midjourney给人物戴上眼镜,无中生有;Flux.1 Kontext生成的人物双眼皮模糊,脸上还多了许多斑点。

从左至右:Vidu Q1、Nano  Banana、Midjourney、Flux.1 Kontext


创意玩法上天,只有想不到的


一款AI工具,仅做到一致性还远远不够,还需拥有强大的创作自由度,满足多样化的创意需求。

最近,Nano  Banana被全网整出各种花活儿,让人直呼上头。

比如,3D人偶手办、老照片修复/上色、多角度视图生成、真人Cosplay、名人合影等等。

一个比较火的玩法,修复老照片,让无数人泪目。

Vidu Q1参考生图创作自由度,同样令人惊叹!

仅需「一张图+一句话」,它就能轻松实现换装、换背景、换角色、换道具。

甚至,Vidu Q1参考生图也能一键直出人物手办。

输入线稿图后,Vidu Q1魔法棒一挥,瞬间就能变成桌面上的3D立体摆件。

prompt :[@图1]变成三维立体建筑摆在桌子上,涂上颜色


顺便......还能帮你上色。

prompt:[@图1]变成三维立体建筑摆在桌子上,建筑物替换成木头材质,草木替换成绿色,最下面的水系替换成蓝色


假设手里有一张北京著名标志建筑图,它能变成由金属质感的立体冰箱贴。

[@图1]变成金属质感的冰箱贴


万物皆可合成


简单的两张图合成,一键实现换装、换背景、换风格。

马斯克一秒换装:

现实中,马斯克没尝试过这样的穿衣风格!

同理,演员一秒换上戏服,马上知道古装戏上装效果:

Vidu Q1参考生图不仅能实现一键换装,更精细的面具,也能一键搞定。

比如,llya戴上三星堆黄金面具,Vidu Q1参考生图还原度高,保留了Ilya标志性的「短发」。

最近,一款帽子「让人头秃」,Ilya惊呼「革命性突破」:

发际线本已稀疏的Ilya,Vidu Q1参考生图生成的戴上帽子的效果是这样的:

不过要让小扎戴上这顶帽子,只能靠AI了。Vidu Q1参考生图尝试一把,效果逼真,AI看了都得直呼离谱:只有碳基智能才能想到的!

不止是真人照片,肖像画中的人物在Vidu Q1参考生图中也可以复活。比如,十一国庆快来了,可以让名画+名建筑,古往今来,五湖四海,任由AI打卡。

比如,蒙娜丽莎打卡北京地标祈年殿:

光影、建筑细节、背景人物,真实感拉满。

类似的例子,可以换其他背景。比如,让汽车登火星:

还可以反向操作,让古代名人体验现代生活,代言各种现代产品。

比如,北宋文豪苏轼如果会弹吉他,大江东去该多豪迈?丙辰中秋,他又该如何表达对弟弟子由的思念?

苏轼弹吉他

甚至古代的仕女都能免费给你打广告。

贵妃醉酒:茅台版

在Vidu Q1参考生图中,还可以让图片中的人物,摆出各种Pose。

比如,现实中闹掰了的Ilya和奥特曼,利用Vidu Q1的参考生图,完全可以在「赛博世界」中重归于好,一起比心🫶。

让鲁迅和马斯克跨越时空,拍一张合影。

prompt:图1与图2合影


Vidu可以解放创意,让人放飞想象:主体一致不跑偏,风格融合更自然。

而且合成2张图只是Vidu Q1参考生图的基础操作。

Vidu Q1支持多图参考,这就能满足复杂剧情、合影、多角色电商等场景。

Vidu Q1参考生图在还原高度一致基础上,还支持产品、道具、场景、光线等任意切换,真实性极强。

万物皆可替


AI一键换装

它能一键生成着装效果,宛如24小时在线的专属搭配顾问。

前段时间,男友Travis Kelce向霉霉求婚,配文「你的英语老师和体育老师要结婚了」掀爆全网。

说不定,许多歌迷们迫不及待地想看到,霉霉提前穿上婚纱的样子。

上传一张霉霉、一张婚纱图,还有一张现场图,Vidu Q1帮你如愿。

最终输出的图,让人眼前一亮,穿上婚纱后的霉霉简直美若天仙。

不仅是大明星,每个人都可以轻松实现一键换装。

网购一件衣服不知款式合不合身,上传一张个人照片,有了Vidu Q1,即可在线秒换春夏秋冬的衣服。

分别输入不同季节服饰后,换装瞬间完成了,不论哪一款穿着都好看。

又或是,把小红书的OOTD全部试一遍。

从着装到配饰,简直一绝。

如果你是一名设计师,想看看手办的格子纹理效果,输入相关物料图片,Vidu Q1参考生图瞬间实现。

或是一款已打好版的衣服,想要尝试不同花纹,Q1也可以玩儿出不同花样。

甚至,你还可以替换图中特定的对象。

比如,现代版「狸猫换太子」:女人手里的小孩换成宠物或者卡通人物。

或者换成史迪奇

即便替换的对象,在图中比较小,也没关系,比如把小女孩手中的牛奶替换为橘子汁。

Vidu Q1还能让你「云游」世界,天天晒出不一样的朋友圈,十一假期可以利用AI拍出完美大片了。

从相册中,上传一张自拍照,以及一张布达拉宫图,P图瞬间完成,人物和背景超自然融合,可以发圈了。

世界名画,整出花活

再以马格利特一幅世界名画《人类之子》为模板,玩一场「绿色苹果」大替换。

一句话换成南瓜,位置也是非常精准,而且人物衣服、颜色保持着高度一致性。

将南瓜放大、再放大,就得到了如下的样子。

换个道具,一只粉色的拖鞋。

这次,再换个人物主体——黄仁勋,老黄的皮衣、眼镜,完美还原。

两幅世界名画,又能碰撞出怎样的火花?

梵高的《星夜》和马格利特《人类之子》完美融合,堪称孤品。

花样玩法

《大话西游之大圣娶亲》中,孙悟空戴上金箍虽获得了无边的法力,却没能保护好心爱的紫霞仙子。

不如,就让Vidu Q1挽回这份「遗憾」。

老照片糊到看不清,让Vidu Q1增强清晰度并换个背景,只能说太惊艳了。

和霉霉同框,自然到根本看不出来是P的。


狂「卷」一致性
解锁AI生产级应用


从「参考生视频」,再到「参考生图」,Vidu的每一次进化是其在「一致性」赛道上又一次发力。

为什么他们如此执着于「一致性」?

回想AI视频发展历程,从Sora惊艳亮相,再到Runway Gen-4、Luma Ray 2、Midjourney V1等模型不断迭代,最初让人惊叹「AI终于能生成视频了」。

但很快,问题就暴露了:AI生成视频往往风格跳跃、人物面目全非,细节更是随时崩坏。

想象拍一部广告,主角的脸从开场到结尾最后一帧变换三次,结果可想而知。

在国内,生数科技很早就洞察到这一痛点。

去年7月,Vidu 全球首推「参考生视频」功能,以参考图为「锚点」,确保生成过程不偏航。

这恰恰提升了AI视频一致性,人物不会变形,风格也不会跳脱。

比如上传一个女孩、帕台农神庙、一束花,Vidu丝滑地将其呈现在一个场景中。

从这里开始,生数就把一致性从视频层面,扩展到了多模态可控。

今年4月,Vidu Q1进一步升级,升级了首尾帧运镜,加入了文生音效等功能,让一致性覆盖了视觉、音频。

VBench评测中,Q1勇夺文生视频双榜第一,力压Sora、Gen-3。

如今,焦点来到了最新的Vidu Q1「参考生图」功能,同时7张图,将一致性推向高峰。

做到了多人、多场景下高一致性,还具备了创作自由度,让万物皆可合成、皆可替、皆可变。

图是基础,视频是延伸——先从「参考生图」生成素材,再无缝转为动态视频。

整个过程,一致性贯穿始终,实现了「精细化可控」的闭环。

不难看出,一致性开启了AI视频「生产级应用」的新纪元。这意味着,它不再是人们手里的娱乐玩具,而是规模化落地的生产力引擎。

电商广告,多场景拿捏


通过灵活的主体变换和场景切换,Vidu Q1参考生图能完美适配广告、电商、媒体、消费品等多个行业。

电商、广告公司可以用它生成无限创意的镜头、海报,让人力制作成本大幅下降;动画师可以快速制作原型,进而专注于IP背后故事的创造......

比如,上传五张不同的图,让Vidu Q1参考生图去合成。

[@图2]背景改为[@图5],[@图5]背景标注[@图1]VOGUE logo,[@图2]人物脚下摆着一款[@图3]包,[@图2]人物戴着[@图4]帽子,[@图2]背景不变,构图不变,主体不变


时尚杂志大片,瞬间拿捏,每张图细节全部呈现。

马上中秋节了,电商想要宣传自家月饼,不用摄影大师,Vidu Q1参考生图直接拍出宣传大片。

一般来说,传统素材制作需1周,拍摄耗时2天,而Q1仅需一天即可完成全流程创作,效率提升90%。

话不多说,直接上演示。

一款抹茶冰皮月饼,想要为其配上一张「花好月圆」的背景图,再扔给Vidu。

[@图1]背景替换为[@图2]的背景,严格遵循[@图1]的摆放位置,摆放整齐


下图中,Vidu Q1输出效果令人惊艳,可以直接拿来制作宣传图了。

再比如,商家还有一款普通的抹茶月饼,想要不同的效果。

可以看到,Vidu Q1「参考生图」功能助力电商促销生成,只需一键合成,即可适配不同场景与节日主题。

再举个栗子,输入一张汽车渲染图,就可以得到不同颜色、不同场景的图片。

图中的汽车变成黄/红/黑色,行驶在海滩、街道、高速公路、雪地上


然后,将以上四张图片分别作为Vidu Q1首尾帧的输入和输出,一键直出高级感广告大片。

AI视频的下半场,比拼的是谁能让它「真正可用」。

只有高一致性,AI才能真正落地到电商、媒体、影视等高价值场景,创造规模化的价值。

如今,生数用行动证明,一致性是通往「生产级」的钥匙。


<br>




    <div>
        平台地址:<a href="http://www.jintiankansha.me/t/GhbhIo4zNt">http://www.jintiankansha.me/t/GhbhIo4zNt</a>
    </div>


<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/74898/GhbhIo4zNt&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们