CV君 2025-09-30 16:05 江苏
一文读懂稀疏视图3DGS伪影难题的破解之道。
近年,3D高斯溅射(3D Gaussian Splatting, 3DGS)技术因其出色的渲染质量和实时性能,在三维重建领域掀起了一股热潮。然而,这项技术在密集视图下表现优异,一旦训练数据变得稀疏(即输入图像很少),其性能就会大打折扣,常常出现恼人的“浮空物”和颜色噪声等渲染瑕疵。
为了解决这一痛点,来自清华大学、香港科技大学、华为诺亚方舟实验室和哈尔滨工业大学的研究者们深入探究了稀疏视图下3DGS出现问题的根源,并发表了一篇名为《Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting》的论文。他们发现,问题的核心在于高斯基元之间的“协同适应”(Co-adaptation)现象。简单来说,就是一组高斯基元为了过度拟合训练视图中的某个像素,而形成了一种过于紧密的“小团体”,导致模型在新视角下的泛化能力变差。
基于这一发现,他们不仅提出了一个量化该问题的指标——协同适应分数(Co-Adaptation Score, CA),还设计了两种即插即用、轻量级且极其有效的正则化策略来打破这种“小团体”,显著提升了稀疏视图下的渲染质量。
论文基本信息
论文标题: Quantifying and Alleviating Co-Adaptation in Sparse-View 3D Gaussian Splatting
作者: Kangjie Chen, Yingji Zhong, Zhihao Li, Jiaqi Lin, Youyu Chen, Minghan Qin, Haoqian Wang
机构: 清华大学、香港科技大学、华为诺亚方舟实验室、哈尔滨工业大学
代码地址: https://github.com/chenkangjie1123/Co-Adaptation-of-3DGS/
录用信息: NeurIPS 2025
“协同适应”:稀疏视图3DGS的“阿喀琉斯之踵”
3DGS通过优化数以万计的3D高斯基元来表示场景。在渲染时,每个像素的颜色由多个投影到该像素上的高斯基元混合而成。在数据充足的情况下,这种方式能完美重建场景。但当训练视图稀疏时,模型为了在有限的监督信息下最小化损失,会让多个高斯基元“合谋”来拟合一个像素。它们各自的颜色和透明度可能与真实场景无关,但它们的组合却能在训练视角下“骗过”损失函数。
这种现象就是“协同适应”。如下图所示,在密集视图(a)中,高斯基元对像素颜色的贡献是均衡的。但在稀疏视图下,可能会出现(b)(c)中不均衡贡献导致新视角下出现伪影,甚至在(d)中,多个颜色各异的高斯基元共同“伪造”出一个灰度像素,导致在新视角下出现严重的颜色错误。
如何量化“协同适应”?
为了量化这种现象,论文提出了一个直观的度量标准: 协同适应分数(Co-Adaptation Score, CA) 。其核心思想是:如果一组高斯基元是高度协同适应的,那么在渲染时随机去掉其中一部分,渲染结果就会变得非常不稳定。
具体计算方式是:对同一个目标视角,进行多次渲染。每次渲染前,都随机“丢弃” 50% 的高斯基元。然后,计算多次渲染结果在每个像素上的颜色方差。所有像素的平均方差,就是该视角的CA分数。CA分数越高,说明协同适应越严重。
实验也证实了CA分数与训练视图数量的关系:训练视图越多,CA分数越低,即协同适应现象越弱。这说明增加视图数量是抑制协同适应的自然方法。
下图展示了训练过程中CA分数和PSNR的变化趋势。可以看到,在训练初期,CA分数会随着模型拟合数据而下降,但随后会进入一个平台期甚至上升,这表明协同适应问题开始显现。
两种简单有效的“解耦”策略
既然找到了问题的根源和度量方法,作者提出了两种轻量级的正则化策略来主动抑制协同适应:
随机高斯丢弃 (Stochastic Gaussian Dropout): 灵感来源于神经网络中的Dropout。在每次训练迭代中,以一定的概率p随机“丢弃”一部分高斯基元,不让它们参与渲染和梯度计算。这迫使模型不能过度依赖任何一个特定的高斯基元组合,每个高斯基元都需要学习到更独立、更鲁棒的表达。这就像团队合作,不能让某几个人绑定过深,每个人都要能独当一面,也能和不同的人配合。
透明度噪声注入 (Opacity Noise Injection): 在训练中,为每个高斯基元的透明度(opacity)乘上一个随机噪声(均值为1)。这个操作轻微地扰动了每个高斯基元对最终像素颜色的贡献权重,从而破坏了它们之间脆弱的、过度拟合的依赖关系。相比于丢弃整个高斯基元,这种方式更加“温柔”,提供了一种更软性的正则化。
实验结果:效果显著,即插即用
作者在LLFF、DTU和Blender等多个标准数据集上,将这两种策略应用到了多种主流的稀疏视图3DGS方法(如原始3DGS、DNGaussian、Binocular3DGS等)上。具体的实验设置为:LLFF和DTU使用3个训练视图(图像分别下采样8倍和4倍),Blender使用8个训练视图(图像下采样2倍)。
定量分析
如下表所示,无论是在哪个基线模型上,加入Dropout或透明度噪声后, CA分数都显著下降 ,同时渲染质量指标(PSNR、SSIM、LPIPS)都得到了 一致的提升 。例如,在LLFF数据集上,将该策略用于Binocular3DGS时,PSNR从21.44提升到了 22.12 。
视觉效果对比
从视觉效果上看,提升更加直观。如下图所示,原始方法渲染的图像中充满了彩色的噪声斑点和几何结构的破损。而应用了协同适应抑制策略后,这些问题都得到了极大的缓解,场景的几何结构更完整,细节更清晰,颜色也更自然。
在LLFF数据集上的效果:
在DTU和Blender数据集上的效果:
消融实验
作者还进行了详尽的消融研究,探讨了不同丢弃率p和噪声强度σ的影响,为实际应用提供了参考。结果表明,并非CA分数越低越好,过度抑制协同适应同样会损害模型的表达能力。最佳的性能通常在p=0.2或σ=0.8附近取得。
总结
这项工作从一个新颖的角度揭示了稀疏视图3DGS性能下降的深层原因——协同适应,并提出了简单、通用且高效的解决方案。CV君认为,这项研究的价值不仅在于提供了两个即插即用的“炼丹”技巧,更重要的是它为理解和改进基于优化的三维表示方法提供了一个新的理论视角和分析工具。它告诉我们,在模型优化中,有时需要主动打破模型内部过于“和谐”的合作关系,以换取更强的泛化能力。
对于作者提出的这个思路,你怎么看?这种“解耦”思想是否也能应用到其他生成模型中呢?欢迎在评论区留下你的看法!