52CV 2025-10-14 12:36 江苏
最近,视频生成生成模型例如 Sora, Veo3 得到了社区的关注。 这些模型能够生成具有视觉吸引力,高度逼真,天马行空的视频。 在这个工作中,我们希望能够重建任意视频,并且实现新视角渲染,把AIGC视频变为可探索的场景,为下游任务,如虚拟现实,增强现实提供便利。
标题: Instant4D: 4D Gaussian Splatting in Minutes
Website: https://instant4d.github.io/
相关工作
近期的动态重建工作可以较好的完成单目重建任务,但是通常依赖点跟踪,深度估计,光流,以及刚体运动规律。由于优化速度慢且参数估计复杂,从未校准的随意视频中重建场景仍然具有挑战性。因此现有的工作 Motion Scaffold, Shape-of-Motion 等通常需要接近一小时来优化一个 仅仅6 秒视频,限制了下游应用的可行性。
Instant4D 解决从未校准的视频序列中高效地单目重建动态场景问题,我们的贡献如下:
我们提出了 Instant4D,一种现代化的全自动流程,可在几分钟内重建任意的单目视频,并实现了 30 倍加速。
我们引入了一种网格剪枝策略,可将高斯函数的数量减少 92%,同时保留遮挡结构,并使其可扩展到长视频序列。
我们提出了一种简化的、各向同性的、运动感知的、适用于单目设置下的4DGS 实现。在 Dycheck 数据集上的性能比当前最先进的方法提高了 29%。
图1: Instant4D 的工作框架我们使用深度视觉SLAM模型和Unidepth来获取相机参数和度量深度估计。单目深度将进一步优化为一致的视频深度。之后,我们从一致的深度进行反向投影以获得密集点云,并进一步通过体素滤波获得稀疏点云。基于四维高斯初始化,我们可以在2分钟内重建一个场景。
几何重建设计
我们采用了最新的可微SLAM 方法 MegaSAM来获得相机位姿,接着我们视频一致优化深度,并且反投影至世界坐标系,得到密集点云。对于一个时长 4 秒(30 FPS)的 512×512 视频序列进行深度图反向投影,可得到约 30 M 个原始 3D 点。为了减少静态背景的大面积冗余和动态部分的遮挡问题,我们将世界空间划分为规则的体素网格,并仅保留每个已占用体素内点的质心。
除此之外,由于单目重建的特性,部分背景会消失于视锥,使模型认为这是动态点。为此我们采用了 MegaSAM 的中间产物,得到了每个像素点的运动概率。
4D Gaussian Splatting 设计
对于单目优化场景,我们的出发点是提供密集的几何先验,并减少优化的自由度,以实现优化加速和稳健的泛化。对于4 维高斯,我们保留 4D 均值,和对角缩放 ,RGB 常数颜色,剔除高阶 SCH,参数量减少 60% 以上。
给定时间戳 条件 3D 分布:
各向同性高斯
固定旋转 ,空间/时间各一标量缩放,提升单目优化稳定性,根据实验,各向同性设计会提升渲染质量PSNR 1.25 dB。
运动感知高斯
利用动静蒙版,对静态区域设置更大时间缩放 ,动态区域设置更小的时间缩放,确保静态高斯不因离可见帧消失于视锥而消失于场景;远离当前帧的动态高斯按:
并且在渲染管线中,我们剔除低透明度高斯,抑制冗余,进一步加速渲染。
实验
Instant4D 在现有的 NVIDIA 和 Dycheck 数据集中取得了最佳优化,渲染速度和内存效率,并且达到了 state-of-the-art 渲染质量。
表一: Nvidia 数据集效果比较,相比 InstantSplat 和Casual-FVS 我们实现了 8 倍加速,10 倍的实时渲染速度加速,和更高的 渲染质量
图2:Nvidia 数据集可视化
表二: Dycheck 数据集效果比较,我们实现相比基线的30 倍加速
本文为粉丝投稿,投稿请发邮件amos@52cv.net