CV君 2025-11-21 17:38 江苏
MHR,让数字人的每一个动作都更接近真实。
大家好!今天想和大家聊一篇非常有趣的新论文,它来自Meta,之昨天发布的SAM 3D的关键技术,题为《MHR: Momentum Human Rig》。这篇论文介绍了一种全新的参数化人体模型——MHR (Momentum Human Rig)。对于从事AR/VR、游戏开发或是数字人研究的朋友们来说,这绝对是一个值得关注的进展。简单来说,MHR模型旨在创建更富有表现力、解剖学上更合理的人体动画,它巧妙地结合了两种现有技术的优点,并引入了创新性的改进,让数字人的动作和形态都达到了一个新的高度。
在深入了解MHR之前,我们先来看看这篇重磅论文的基本信息:
论文标题: MHR: Momentum Human Rig
论文作者: Aaron Ferguson, Ahmed A. A. Osman, Berta Bescos, Carsten Stoll, Chris Twigg, Christoph Lassner, David Otte, Eric Vignola等
作者机构: Meta
数字人模型的“前世今生”
在计算机图形学领域,参数化人体模型扮演着核心角色。像我们熟知的SMPL、SMPL-X等模型,它们能用一组紧凑的参数(比如体型和姿态)来生成一个完整的三维人体网格。这项技术是虚拟试衣、动作捕捉和虚拟形象创建等应用的基石。
然而,经典的模型也存在一些固有的局限性。例如,在SMPL这类模型中,人体的骨骼关节位置是通过表面网格顶点加权计算得出的。这种设计导致了骨骼和身体外形(软组织)的“纠缠”,使得我们很难独立地去调整骨骼长度(比如让一个角色变高,但不变胖)或精确地塑造体型。这对于追求细节的艺术家和开发者来说,无疑是一个痛点。
为了解决这个问题,ATLAS模型率先提出了解耦骨骼与外形的思想,允许对骨骼和表面进行独立控制。MHR正是在这一思想的基础上,进一步融合了Momentum库的灵活性和现代化的绑定系统,旨在打造一个表现力更强、更符合解剖学原理的全新模型。
MHR模型的核心创新
MHR模型的设计哲学是“解耦”与“精控”。它将人体分为几个可以独立控制的部分,并对姿态引起的变化进行了更精细的建模。其核心可以概括为以下几点:
骨骼、体型和姿态的完全解耦
MHR的第一个亮点,就是它彻底分离了骨骼结构(Skeletal Structure)、身份体型(Identity Shape)和姿态(Pose)。
独立的骨骼系统:MHR的骨骼系统基于Momentum库构建,拥有127个关节。与以往模型不同,骨骼的长度、位置等属性可以被直接、独立地调整,而不会意外地影响到身体的胖瘦。这为创建不同身高、臂展和腿长的角色提供了极大的便利。论文中的图示非常直观地展示了改变单一骨骼参数的效果,例如拉长手臂或大腿,而身体其他部分保持不变。
分区的身份空间 (Partitioned Identity Space) :为了更精细地控制体型,MHR将身份体型空间划分为了三个独立的部分:身体、头部和手部。这意味着你可以使用不同的参数集分别调整这三个区域的形状,比如单独改变一个人的脸型,而身体和手保持不变。这种设计不仅让艺术家的创作更自由,也使得模型可以利用来自不同大型扫描数据集的优势,分别针对身体、头部和手部进行学习,从而提升各部分的细节和保真度。
丰富的表情系统:MHR还包含一个由艺术家雕刻的、基于面部动作编码系统(FACS)的表情空间。这个系统包含了72个语义化的表情,比如抬眉、微笑等,它们是稀疏且明确的,使得表情控制更加直观和精准。
下图展示了MHR身份空间中身体、面部和手部的前几个主成分变化效果,可以看出其对局部形态的强大控制力。
创新的稀疏非线性姿态校正
当人体做出大幅度动作时(比如弯曲手肘或膝盖),皮肤和肌肉会产生复杂的变形,这被称为“软组织变形”。传统的线性混合蒙皮(LBS)技术很难完美模拟这种效果,经常会导致“糖纸包裹”等不自然现象。因此,需要额外的“姿态校正”来修正。
SMPL-X等模型虽然有姿态校正,但其校正量是全局性的,一个关节的运动可能会影响到全身的顶点,这在物理上是不准确的。
MHR在这里提出了一个非常巧妙的方案:稀疏非线性姿态校正 (Sparse, Non-Linear Pose Correctives)。它将校正过程分解为两步:
局部非线性编码:首先,一个轻量级的多层感知机(MLP)网络会处理每个关节及其相邻关节的姿态信息,生成一个编码了局部姿态变化的特征。这个过程是非线性的,能够捕捉到更复杂的变形关系。
稀疏线性应用:然后,该特征会通过一个线性层,将变形应用到网格顶点上。关键在于,这个应用过程是稀疏的。通过一种基于测地线距离的初始化和L1正则化,模型能学习到每个关节的运动只影响其周围的一小片区域。
如下图所示,SMPL-X的姿态校正(第一行)影响范围很广,而MHR的校正(第三行)在训练后变得非常稀疏和局部化,更符合真实的肌肉运动原理。
这种设计结合了非线性模型的表现力和稀疏模型的局部性与效率,是MHR在技术上的一个重大突破。
实验效果如何?
说了这么多技术细节,MHR的实际表现究竟怎么样呢?论文在3DBodyTex这个公开数据集上,将MHR与SMPL和SMPL-X进行了详细的比较。
定量分析
在模型拟合3D扫描数据的任务上,研究人员评估了模型表面与真实扫描数据点之间的平均距离(即顶点到表面的误差)。结果显示,MHR在不同数量的拟合参数下,其拟合误差均显著低于SMPL和SMPL-X。这意味着MHR能够用更少的参数更准确地表达真实的人体形状。
定性分析
定性结果更加直观。从下图的比较中我们可以看到,无论是从模型与扫描的重叠度,还是从误差热力图来看,MHR(最右列)的拟合效果都远超前两者。特别是在关节处,如肩膀、肘部和膝盖,SMPL和SMPL-X的拟合偏差较大,而MHR则能非常贴合地重建出身体轮廓,尤其是在一些极端姿态下,优势更为明显。
总结与展望
总的来说,MHR通过将骨骼与体型解耦、引入分区的身份空间以及设计巧妙的稀疏非线性姿态校正系统,成功地创建了一个在表现力、准确性和艺术家友好性方面都超越以往工作的参数化人体模型。
这项工作不仅为AR/VR中的虚拟化身、电影和游戏中的角色动画提供了更强大的工具,也为计算机视觉领域中基于模型的3D人体姿态和形状估计等研究铺平了道路。虽然模型还有一些待完善之处,比如集成眼球和口腔系统,但MHR无疑为数字人技术的未来指明了一个清晰而令人兴奋的方向。
大家对MHR这个新模型有什么看法?你觉得它最可能在哪些领域大放异彩?欢迎在评论区一起交流讨论!