CV君 2025-10-29 13:08 江苏
单目视频生成实时高保真数字人
最近,数字人领域因为3D高斯溅射(3D Gaussian Splatting)技术的出现,又热闹了起来。这项技术大大加快了渲染速度,让实时高保真渲染成为了可能。不过,挑战依然存在,尤其是在处理衣服、快速运动的肢体等这些“软”的、动态的细节时,效果总是不尽如人意。
今天,CV君想和大家聊一篇刚被机器人顶会IROS 2025接收的论文《STG-Avatar: Animatable Human Avatars via Spacetime Gaussian》。这篇工作来自大连理工大学、复旦大学等机构的研究者们,他们提出了一个名为STG-Avatar的全新框架,旨在解决上述痛点。简单来说,只用一段普通单目视频,它就能在25分钟内训练出一个细节丰富、可实时动画的数字人分身,并能以60 FPS的丝滑帧率进行渲染。
论文标题: STG-Avatar: Animatable Human Avatars via Spacetime Gaussian
作者: Guangan Jiang, Tianzi Zhang, Dong Li, Zhenjun Zhao, Haoang Li, Mingrui Li, Hongyu Wang
机构: 大连理工大学、复旦大学、澳门大学、萨拉戈萨大学、香港科技大学(广州)
项目主页(尚未开源): https://github.com/jiangguangan/STG-Avatar
背景:数字人动画,快与好难两全
创建逼真的可动数字人,无论是在人机交互、VR/AR还是机器人远程呈现等领域,都有着巨大的应用价值。传统方法,比如基于NeRF(神经辐射场)的技术,虽然能生成高质量的数字人,但训练和渲染速度都太慢,动辄需要几十个小时训练,渲染一帧也要好几秒,离“实时”相去甚远。
3D高斯溅射(3DGS)的出现像一股清流,它用成千上万个“高斯球”来显式地表示三维场景,渲染速度极快。然而,当面对一个活生生的人时,3DGS也遇到了麻烦。现有的基于3DGS的方法通常使用经典的线性混合蒙皮(Linear Blend Skinning, LBS)模型来驱动人体的骨骼运动。LBS擅长处理刚性的骨骼和关节运动,但对于衣服的褶皱、头发的飘动这类非刚性变形,就显得力不从心,导致细节丢失或产生不自然的“穿模”现象。
如何才能既保留LBS带来的高效实时骨骼控制,又能精准捕捉那些微妙的非刚性动态细节呢?这正是STG-Avatar试图解决的核心问题。
方法:刚柔并济,时空高斯巧补细节
STG-Avatar的核心思想是“刚柔并济”。它巧妙地将LBS和一种名为“时空高斯(Spacetime Gaussian, STG)”的技术结合起来,形成了一个刚-非刚耦合的变形框架。
整个流程可以分为三个阶段:
SMPL引导的初始化:首先,利用SMPL人体参数化模型对时空高斯进行初步的位置设定。
刚-非刚协同优化:这是最关键的一步。LBS负责驱动人体总体的、刚性的姿态变化,保证了动画的实时性和骨骼运动的准确性。而STG则在此基础上,对3D高斯球进行时空维度的自适应优化,专门捕捉和补偿LBS无法处理的非刚性变形,比如衣服的褶皱和摆动。
动态感知的神经渲染:最后,通过一个轻量级的MLP(多层感知机)进行颜色解码和渲染。
亮点一:光流引导的自适应加密
为了更好地捕捉高速运动区域的细节,作者们还引入了一个非常聪明的策略:用光流(Optical Flow)来识别哪些区域正在快速运动。
上图展示了未使用光流引导(左)和使用后(右)的对比。可以清晰地看到,在手部、面部这些细节丰富且动态的区域,完整模型的重建效果有了显著提升。当检测到某个区域(比如挥舞的手臂)运动剧烈时,框架就会自动地、有针对性地在该区域增加3D高斯球的密度。这样一来,计算资源就被用在了“刀刃上”,既能精准还原动态细节,又避免了全局加密带来的巨大计算开销。
实验:效果与效率双双领先
口说无凭,实验为证。研究者们在ZJU-MoCap和THUman4.0这两个主流的单目视频人体动作捕捉数据集上,将STG-Avatar与当前最先进的方法(SOTA)进行了全面对比。
定量对比
从上表数据可以看出,在PSNR、SSIM(越高越好)和LPIPS(越低越好)这三项关键的图像质量评估指标上,STG-Avatar都取得了最优或次优的成绩,全面超越了HumanNeRF、GauHuman和3DGS-Avatar等方法。特别是在动态区域,其PSNR比3DGS-Avatar提升了1.5dB,衣物褶皱的LPIPS误差降低了23%。
定性对比
上图是在ZJU-MoCap数据集上的效果对比,可以直观地看到,相比其他方法,STG-Avatar(Ours)在重建衣服褶皱、身体轮廓等非刚性部分的细节上要清晰和真实得多。
在难度更高的THUman4.0数据集上,STG-Avatar同样表现出色,无论是衣服的纹理、褶皱还是面部特征,都还原得惟妙惟肖。
效率对比
效率是STG-Avatar的另一大杀手锏。在单张RTX 4090显卡上,训练时间仅需25分钟,而渲染速度则达到了惊人的60 FPS,真正实现了实时交互。相比之下,NeRF类方法需要数天训练,而其他3DGS方法要么训练更慢,要么效果稍逊。
消融实验
为了验证框架中各个模块的有效性,作者还进行了消融研究。结果表明,无论是光流引导的采样,还是STG模块,都对最终的性能提升起到了至关重要的作用。
总结
CV君认为,STG-Avatar的巧妙之处在于它没有试图用一个“万能模型”去解决所有问题,而是将刚性运动和非刚性细节这两个不同性质的问题解耦,并用最适合的技术(LBS和STG)分别应对,最后通过光流进行智能化的资源调配。这种“分而治之”的哲学,在资源有限的情况下,实现了效果和效率的最佳平衡。
大家对这个方法怎么看?欢迎在评论区留下你的看法!