动态列表

  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见
  • Atlas来了!ChatGPT嵌入浏览器,用谷歌的引擎,革谷歌的命
  • 奥特曼抢走小扎印钞机!Meta「占领」OpenAI,20%都是前同事
  • StereoAdapter:北大首提自监督,适配水下双目深度估计
  • AI杀入美股,DeepSeek又是第一!港大90后开源,AI股神人人都能造
  • 从“Spider”到SAM 3:概念提示分割小考
  • ChatGPT 上线「公司知识库」;Optimus 机器人因「手」再次延期;理想回应 MEGA 起火事件|极客早知道

IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人

CV君 2025-10-29 13:08 江苏

单目视频生成实时高保真数字人

最近,数字人领域因为3D高斯溅射(3D Gaussian Splatting)技术的出现,又热闹了起来。这项技术大大加快了渲染速度,让实时高保真渲染成为了可能。不过,挑战依然存在,尤其是在处理衣服、快速运动的肢体等这些“软”的、动态的细节时,效果总是不尽如人意。

今天,CV君想和大家聊一篇刚被机器人顶会IROS 2025接收的论文《STG-Avatar: Animatable Human Avatars via Spacetime Gaussian》。这篇工作来自大连理工大学、复旦大学等机构的研究者们,他们提出了一个名为STG-Avatar的全新框架,旨在解决上述痛点。简单来说,只用一段普通单目视频,它就能在25分钟内训练出一个细节丰富、可实时动画的数字人分身,并能以60 FPS的丝滑帧率进行渲染。

  • 论文标题: STG-Avatar: Animatable Human Avatars via Spacetime Gaussian

  • 作者: Guangan Jiang, Tianzi Zhang, Dong Li, Zhenjun Zhao, Haoang Li, Mingrui Li, Hongyu Wang

  • 机构: 大连理工大学、复旦大学、澳门大学、萨拉戈萨大学、香港科技大学(广州)

  • 论文地址: https://arxiv.org/abs/2510.22140

  • 项目主页(尚未开源): https://github.com/jiangguangan/STG-Avatar

背景:数字人动画,快与好难两全

创建逼真的可动数字人,无论是在人机交互、VR/AR还是机器人远程呈现等领域,都有着巨大的应用价值。传统方法,比如基于NeRF(神经辐射场)的技术,虽然能生成高质量的数字人,但训练和渲染速度都太慢,动辄需要几十个小时训练,渲染一帧也要好几秒,离“实时”相去甚远。

3D高斯溅射(3DGS)的出现像一股清流,它用成千上万个“高斯球”来显式地表示三维场景,渲染速度极快。然而,当面对一个活生生的人时,3DGS也遇到了麻烦。现有的基于3DGS的方法通常使用经典的线性混合蒙皮(Linear Blend Skinning, LBS)模型来驱动人体的骨骼运动。LBS擅长处理刚性的骨骼和关节运动,但对于衣服的褶皱、头发的飘动这类非刚性变形,就显得力不从心,导致细节丢失或产生不自然的“穿模”现象。

如何才能既保留LBS带来的高效实时骨骼控制,又能精准捕捉那些微妙的非刚性动态细节呢?这正是STG-Avatar试图解决的核心问题。

方法:刚柔并济,时空高斯巧补细节

STG-Avatar的核心思想是“刚柔并济”。它巧妙地将LBS和一种名为“时空高斯(Spacetime Gaussian, STG)”的技术结合起来,形成了一个刚-非刚耦合的变形框架。

整个流程可以分为三个阶段:

  1. SMPL引导的初始化:首先,利用SMPL人体参数化模型对时空高斯进行初步的位置设定。

  2. 刚-非刚协同优化:这是最关键的一步。LBS负责驱动人体总体的、刚性的姿态变化,保证了动画的实时性和骨骼运动的准确性。而STG则在此基础上,对3D高斯球进行时空维度的自适应优化,专门捕捉和补偿LBS无法处理的非刚性变形,比如衣服的褶皱和摆动。

  3. 动态感知的神经渲染:最后,通过一个轻量级的MLP(多层感知机)进行颜色解码和渲染。

亮点一:光流引导的自适应加密

为了更好地捕捉高速运动区域的细节,作者们还引入了一个非常聪明的策略:用光流(Optical Flow)来识别哪些区域正在快速运动。

上图展示了未使用光流引导(左)和使用后(右)的对比。可以清晰地看到,在手部、面部这些细节丰富且动态的区域,完整模型的重建效果有了显著提升。当检测到某个区域(比如挥舞的手臂)运动剧烈时,框架就会自动地、有针对性地在该区域增加3D高斯球的密度。这样一来,计算资源就被用在了“刀刃上”,既能精准还原动态细节,又避免了全局加密带来的巨大计算开销。

实验:效果与效率双双领先

口说无凭,实验为证。研究者们在ZJU-MoCap和THUman4.0这两个主流的单目视频人体动作捕捉数据集上,将STG-Avatar与当前最先进的方法(SOTA)进行了全面对比。

定量对比

从上表数据可以看出,在PSNR、SSIM(越高越好)和LPIPS(越低越好)这三项关键的图像质量评估指标上,STG-Avatar都取得了最优或次优的成绩,全面超越了HumanNeRF、GauHuman和3DGS-Avatar等方法。特别是在动态区域,其PSNR比3DGS-Avatar提升了1.5dB,衣物褶皱的LPIPS误差降低了23%

定性对比

上图是在ZJU-MoCap数据集上的效果对比,可以直观地看到,相比其他方法,STG-Avatar(Ours)在重建衣服褶皱、身体轮廓等非刚性部分的细节上要清晰和真实得多。

在难度更高的THUman4.0数据集上,STG-Avatar同样表现出色,无论是衣服的纹理、褶皱还是面部特征,都还原得惟妙惟肖。

效率对比

效率是STG-Avatar的另一大杀手锏。在单张RTX 4090显卡上,训练时间仅需25分钟,而渲染速度则达到了惊人的60 FPS,真正实现了实时交互。相比之下,NeRF类方法需要数天训练,而其他3DGS方法要么训练更慢,要么效果稍逊。

消融实验

为了验证框架中各个模块的有效性,作者还进行了消融研究。结果表明,无论是光流引导的采样,还是STG模块,都对最终的性能提升起到了至关重要的作用。

总结

CV君认为,STG-Avatar的巧妙之处在于它没有试图用一个“万能模型”去解决所有问题,而是将刚性运动和非刚性细节这两个不同性质的问题解耦,并用最适合的技术(LBS和STG)分别应对,最后通过光流进行智能化的资源调配。这种“分而治之”的哲学,在资源有限的情况下,实现了效果和效率的最佳平衡。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们