CV君 2025-09-24 17:33 江苏
视频创作的未来,或许真的不一样了。
搞视频编辑的朋友们,是不是经常觉得,想往视频里加个东西,这过程简直比登天还难?又要抠图,又要搞蒙版(mask),效果还经常不咋地,光影对不上,动起来也假假的。今天,咱就来聊个“王炸”级别的技术,它可能要彻底改变这个局面了。
字节跳动的大佬们最近搞出了一个名为 OmniInsert 的新框架,专门用来做视频内容植入。最关键的是,它 完全不需要手动提供掩码(mask-free)!你只要给它一个参考图片(或者好几个),告诉它把里面的东西加到视频里,它就能给你安排得明明白白,而且效果超级自然,甚至在他们自己构建的基准测试里,效果超过了市面上顶级的闭源商业方案!
这个名字 OmniInsert 也挺有意思,“Omni”就是“全能、万物”的意思,“Insert”是“插入”,合起来就是“万物皆可插”,口气不小,但看完效果,你会觉得,嗯,它还真有点东西。
论文标题: OmniInsert: Mask-Free Video Insertion of Any Reference via Diffusion Transformer Models
作者团队: Jinshu Chen, Xinghui Li, Xu Bai, Tianxiang Ma, Pengze Zhang, Zhuowei Chen, Gen Li, Lijie Liu, Songtao Zhao, Bingchuan Li, Qian He
所属机构: 字节跳动
在深入技术细节之前,先来看看 OmniInsert 在真实场景下的一些效果展示,感受一下它的强大。不管是静态的物体还是动态的角色,都能毫无违和感地融入视频。
甚至,它还能同时插入多个不同的物体,比如下面这张图里,同时把大象和狗给加了进去,各自的动态和光影都还挺和谐。
研究背景:视频插入的痛点
大家知道,基于扩散模型的AI生成技术现在很火,但在视频插入这个具体的应用上,一直有几个大难题。
以前的方法,很多都得依赖各种复杂的控制信号,比如你得先手动圈出要插入的区域(就是做个mask),或者用深度图、边缘图之类的东西来引导模型。这本身就很麻烦,而且,即便这样,要让插入的物体(官方叫“主体”)在视频里动起来的时候,一直保持自己的样子(也就是主体一致性),同时又能和周围环境完美融合,真的很难。
所以,作者们就想,能不能搞个更“傻瓜式”的方案,直接、不用mask,就能把任何参考图片里的东西,自然地“种”到视频里?这就是 OmniInsert 要解决的核心问题。
核心方法:三步走,解决三大挑战
为了实现这个目标,作者们主要解决了三个挑战: 数据稀缺 、 主体与场景的平衡 ,以及 插入的和谐性 。
1. InsertPipe:没数据?自己造!
训练这种模型,需要海量的“原视频-参考图-插入后视频”这样的数据对。但现实中哪有这么多现成的数据?
于是,作者们开发了一个叫 InsertPipe 的自动化数据生产线。这个管线特别聪明,它有三种方式来造数据:
真实管线 (Real Pipe): 把真实视频里的某个物体抠出来,当成参考图,原视频就成了“插入后”的真值。
渲染管线 (Rendering Pipe): 用3D渲染技术,把虚拟物体渲染到真实视频里,生成数据。
生成管线 (Gen Pipe): 用其他AI生成模型,先造出一些合成数据。
通过这三条路子,InsertPipe 就能源源不断地生产出各种各样、高质量的训练数据,解决了数据稀缺这个大难题。
2. OmniInsert 框架:平衡的艺术
有了数据,就得设计模型了。 OmniInsert 的主体是一个基于 扩散变换器(Diffusion Transformer, DiT) 的架构。它的核心思路,是在生成视频的每一步,都巧妙地平衡“要插入的物体长啥样”和“原来的场景是啥样”这两个信息。
为了做到这一点,他们设计了好几个关键模块:
条件特征注入 (Condition-Specific Feature Injection): 这个机制能把来自参考主体、原始视频场景的特征,清晰地区分开,然后注入到生成模型里。这样模型就不会“顾此失彼”,既能看清主体,也能保留场景。
渐进式训练 (Progressive Training): 训练不是一蹴而就的。他们让模型先学习注入场景信息,再慢慢学着加入主体信息。这样循序渐进,模型能更好地掌握平衡感。
主体聚焦损失 (Subject-Focused Loss): 为了让生成的主体细节更清晰、更逼真,他们还专门设计了一个损失函数,让模型在训练时“多关照”一下主体区域。
3. 优化与和谐:让效果更上一层楼
模型训练好了还不够,为了让最终效果更自然、更符合人类审美,作者们又加了两个“大招”。
插入偏好优化 (Insertive Preference Optimization, IPO): 这个想法很有意思。他们先用GPT-4V来给生成结果打分,模拟人类的偏好,然后用这个“偏好”数据来进一步微调模型。相当于请了个AI老师,教模型怎么做得更讨人喜欢。
上下文感知改写模块 (Context-Aware Rephraser): 在最后生成视频的时候,这个模块会再次分析上下文,对一些细节进行微调,让主体和背景之间的过渡,比如光影、边缘,看起来天衣无缝。
实验效果:不只优秀,是超越
是骡子是马,拉出来遛遛。作者们为了公平地评估 OmniInsert,还专门创建了一个新的评测基准,叫做 InsertBench。这个基准包含了各种各样的场景和精心挑选的主体,非常有挑战性。
定量与定性比较
在 InsertBench 上,OmniInsert 和现在一些顶尖的方法(包括闭源的商业方案)进行了正面PK。从下面的量化数据表(Table 1)和用户研究(Table 2)可以看出,OmniInsert 在主体一致性、背景保真度和整体视觉质量上,都取得了明显优势。
光看数字可能不直观,直接上图对比,高下立判。下面这两张图(Figure 5, Figure 6)展示了 OmniInsert 和其他方法的对比,可以看到,无论是在主体细节的保留,还是和环境的融合度上,OmniInsert 的表现都堪称惊艳。
这里还有更多的对比效果图,大家可以仔细看看。
消融实验
为了证明他们提出的每个模块都不是花架子,作者还做了详尽的消融实验。简单说,就是把某个模块去掉,看看效果会差多少。结果(如下图 Figure 7, Table 3)表明,前面提到的渐进式训练、主体聚焦损失、偏好优化等,对最终的好效果都是有贡献的。
下面是一些更多的生成结果,展示了其在不同场景下的应用潜力。
局限性
当然,没有技术是完美的。作者也很坦诚地指出了当前方法的一些不足。比如,在某些极端情况下,可能会出现物理上不合理的现象(比如物体穿模),或者插入的物体和原视频有轻微的色差。
总结
总的来说,CV君觉得,OmniInsert 这项工作意义还是挺大的。它不仅提出了一个效果惊艳的无掩码视频插入框架,更重要的是,它还配套解决了数据和评测这两大难题,构建了 InsertPipe 和 InsertBench,形成了一个完整的研究闭环。
这种“授人以鱼,不如授人以渔”的思路,对整个领域的发展都是一个巨大的推动。虽然作者提到代码将要开源,但目前在Github上还没看到,大家可以先去他们的项目主页看看效果视频,保持关注。
大家对这个“万物皆可插”的技术怎么看?觉得它未来最可能用在哪些好玩的场景里?欢迎在评论区留下你的脑洞!