动态列表

  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见

英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!

CV君 2025-10-31 16:38 江苏

AI编辑学会“脑补”,P图从此遵循基本法!

最近,AI图像编辑技术层出不穷,但大家可能也发现了,很多模型生成的图片虽然乍一看很惊艳,但仔细一琢磨,总觉得哪里“不对劲”。比如让汽车掉个头,结果车直接瞬移了;或者让机器人手臂捡东西,动作却完全违反了物理定律。这其实是因为,大多数模型缺乏对物理世界基本规律的理解。

今天,我们要聊的这篇论文,就是来解决这个问题的。来自 英伟达(NVIDIA)多伦多大学(University of Toronto) 的研究团队提出了一个名为 ChronoEdit 的新框架,它的核心思想非常巧妙:把图像编辑问题,重新定义为一个视频生成问题。通过引入时间维度的推理,ChronoEdit能够创造出不仅视觉上令人信服,更在物理层面上合情合理的编辑效果。

现有技术的“物理硬伤”

在深入了解ChronoEdit之前,我们先来看看当前顶尖的图像编辑模型都有哪些“痛点”。无论是让车辆转弯、机械臂操作,还是简单的开关物体,现有模型常常会“脑补”出一些奇怪甚至完全错误的结果。它们可能会扭曲场景的几何结构,或者生成一些本不该存在的物体,其根本原因在于模型无法理解编辑指令背后所蕴含的物理过程。

上图展示了现有SOTA模型的失败案例,比如让SUV掉头,结果车辆变形;让机械臂捡起勺子,结果勺子和手臂都出现了不合逻辑的扭曲。相比之下,ChronoEdit的编辑结果则显得非常自然、连贯。

时序推理:ChronoEdit的核心思想

为了让AI学会“物理常识”,ChronoEdit将输入的原始图像和我们期望的目标图像,分别看作是一小段“微视频”的 第一帧最后一帧。这样一来,图像编辑任务就从一个静态的“A到B”问题,转变成了一个动态的、需要理解过程的“A如何演变到B”的问题。

整个流程分为两个核心阶段:

1. 时间推理阶段(Temporal Reasoning Stage)

这是ChronoEdit的精髓所在。在去噪过程的初始阶段,模型并不直接生成最终结果,而是先“想象”并生成一系列短暂的中间过渡帧。这些中间帧就像是模型的“思考过程”,它们构成了一条符合物理逻辑的编辑轨迹,作为一种“推理令牌”(Reasoning Tokens)来指导后续的生成。这个过程利用了大型预训练视频生成模型学到的关于物体运动、交互的先验知识。

2. 编辑帧生成阶段(Editing Frame Generation Stage)

在“思考”清楚编辑该如何发生之后,为了提高效率,模型会丢弃这些中间的“推理令牌”,然后集中“精力”进一步优化和完善目标帧,最终生成我们所见的、高质量且物理一致的编辑后图像。

为了更直观地理解这个“思考过程”,研究者们将这些中间的推理帧可视化了出来。我们可以清晰地看到,当接到“在长凳上加一只猫”的指令时,模型是如何一步步“构想”出猫出现在凳子上的合理过程的。

实验效果:不仅合理,而且高效

为了验证ChronoEdit的性能,研究者们还构建了一个名为 PBench-Edit 的新基准测试集,专门用于评估那些需要物理和时间一致性的编辑任务。

实验结果表明,ChronoEdit在各项指标上都显著优于当前最先进的基线模型,无论是在通用编辑任务还是在考验物理一致性的任务上,都取得了更高的视觉保真度和物理合理性。

从上表中可以看到,在GPT-4.1的评估下,ChronoEdit-14B在多个任务维度上都获得了最高分。

此外,研究团队还考虑到了效率问题。他们发现,并不需要在整个去噪过程中都进行时间推理。通过一个消融实验,他们确定了在总共50个采样步骤中,仅在前10步进行时间推理(Nr=10),就能达到与全程推理几乎相当的效果,同时大大缩短了处理时间。

基于此,他们还推出了一个轻量化版本 ChronoEdit-Turbo,其 运行时间仅为5.0秒,相比于标准版的35.3秒,效率大幅提升,但编辑质量依然保持在很高的水准。

总结

CV君觉得,ChronoEdit最核心的启发在于,它为解决生成模型的“常识”问题提供了一个全新的视角。通过将静态图像编辑升维到动态的时间序列上进行推理,模型得以利用在视频数据中学到的物理规律,这对于未来构建更强大的世界模型、实现更真实的物理世界模拟具有非常重要的意义。

大家对这种让AI“脑补”一下物理过程的P图方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们