CV君 2025-09-07 11:41 江苏
将梵高的《星夜》“画”在一个三维场景上,是一种怎样的体验?近年来,随着NeRF和3D高斯溅射(3D Gaussian Splatting)等三维神经表示技术的兴起,3D风格迁移成为了一个热门研究方向。然而,现有的方法往往只能机械地“粘贴”纹理,却难以理解和传递风格图像中高层次的艺术“灵魂”——比如,天空应该有漩涡,而不是简单地涂成蓝色。同时,风格化后的三维场景常常显得模糊混乱,物体与物体之间界限不清。
为了解决这些问题,来自浙江大学的研究团队提出了一种全新的3D风格迁移管线——SSGaussian。这个名字本身就揭示了其核心目标:Semantic-Aware (语义感知) 和 Structure-Preserving (结构保持) 。通过巧妙地利用强大的2D扩散模型先验,SSGaussian成功地将风格的“神韵”与场景的“筋骨”完美结合,生成了前所未有的、兼具艺术美感与结构清晰度的3D风格化世界。
论文标题:SSGaussian: Semantic-Aware and Structure-Preserving 3D Style Transfer
作者团队:Jimin Xu, Bosheng Qin, Tao Jin, Zhou Zhao, Zhenhui Ye, Jun Yu, Fei Wu
所属机构:浙江大学
研究背景:3D风格迁移的“形似”与“神似”之困
当前的3D风格迁移方法,虽然能够将风格图像的颜色、笔触等低级模式应用到三维场景中,并保持多视角的一致性,但它们往往在两个更深层次的方面表现不佳:
缺乏语义理解:模型无法真正“看懂”风格图像。它不知道梵高的《星夜》中,漩涡状的笔触是用来描绘天空的,因此可能会错误地将这种风格应用到建筑或地面上,导致风格错配。
破坏场景结构:风格化过程常常会模糊场景中不同物体之间的边界,使得整个场景看起来像一锅“五彩粥”,失去了原有的结构感和深度感,难以分辨独立的物体实例。
SSGaussian正是为了解决“神韵不准”和“筋骨不清”这两大痛点而设计的。
SSGaussian:两阶段“升维”的艺术创作法
SSGaussian的核心是一种创新的两阶段管线,它没有直接对复杂的三维场景进行风格化,而是采取了一种更聪明的“先降维,后升维”的策略。
SSGaussian 整体管线示意图
第一阶段:利用扩散模型,对2D关键视角进行高质量风格化。首先,从原始的3D高斯场景中选取几个有代表性的“关键视角”,渲染出它们的2D图像。然后,借助强大的预训练2D扩散模型(如Stable Diffusion),将参考风格应用到这些2D图像上。
第二阶段:将风格化的2D关键视角“升维”迁移回3D高斯表示。在获得了一组高质量、风格一致的2D图像后,再将这些图像上的风格信息精准地迁移回完整的三维高斯场景中。
两阶段风格化流程图解
为了实现这一流程,作者设计了两大核心创新模块:
创新一:跨视角风格对齐 (Cross-View Style Alignment, CVSA)
在第一阶段,如何保证多个关键视角的风格化结果是相互一致的?如果独立地对每张图进行风格化,很可能出现“左边视角的天是蓝色,右边视角的天是绿色”的矛盾情况。为此,作者在扩散模型的U-Net结构中引入了跨视角注意力机制。这使得在为某个视角生成图像时,模型能够“参考”其他视角的信息,从而确保所有关键视角的风格化结果在语义和细节上都保持高度一致。
CVSA模块显著提升了多视角间的风格一致性
创新二:实例级风格迁移 (Instance-level Style Transfer, IST)
在第二阶段,如何将2D风格迁移回3D场景,同时保持物体的独立性和结构感?作者提出了实例级风格迁移。该方法能够识别并利用不同关键视角中相同的物体实例(例如,同一栋建筑在不同视角下的样子),并将风格作为一个整体应用到这个三维物体上。这保证了风格不会“溢出”到邻近的物体上,从而使得最终的3D场景结构清晰,层次分明。
IST方法有效减少了模糊和视觉伪影,使场景结构更清晰
实验结果:全方位超越SOTA
SSGaussian在各种场景(包括前视场景和更具挑战性的360度场景)下,与现有的SOTA方法进行了全面的定性和定量比较。
从定性结果来看,SSGaussian生成的场景不仅风格更贴近参考图的“神韵”,而且物体边缘清晰,结构感强,艺术表现力远超其他方法。
在前视场景(LLFF数据集)上的定性对比
在360度场景(Tanks and Temples数据集)上的定性对比
定量指标也同样印证了其优越性。无论是在衡量多视角一致性的LPIPS和RMSE指标上,还是在衡量风格/内容损失的指标上,SSGaussian都取得了最佳或接近最佳的成绩。
一致性指标定量对比
渲染质量指标定量对比
此外,用户研究表明,认为SSGaussian的风格化结果在整体上优于其他方法也居于多数,显示了其在主观视觉感受上的巨大优势。
用户研究结果
写在最后
SSGaussian为3D风格迁移领域带来了一股清新的空气。它没有沿着老路去直接优化三维表示,而是巧妙地借助了2D扩散模型强大的先验知识,通过“2D生成->3D迁移”的两阶段管线,成功地解决了语义感知和结构保持两大核心难题。
其提出的 跨视角风格对齐(CVSA) 和 实例级风格迁移(IST) 两个创新模块,为保证多视角一致性和场景结构清晰度提供了行之有效的解决方案。
这项工作不仅显著提升了3D风格迁移的艺术表现力和视觉质量,也为未来如何将强大的2D生成先验知识应用于三维内容创作提供了宝贵的思路和范例。
了解最新 AI 进展,欢迎关注公众号:aicvml投稿寻求报道请发邮件至:amos@52cv.net欢迎点赞、转发、评论。