动态列表

  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策

解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR

CV君 2025-11-21 17:38 江苏

MHR,让数字人的每一个动作都更接近真实。

大家好!今天想和大家聊一篇非常有趣的新论文,它来自Meta,之昨天发布的SAM 3D的关键技术,题为《MHR: Momentum Human Rig》。这篇论文介绍了一种全新的参数化人体模型——MHR (Momentum Human Rig)。对于从事AR/VR、游戏开发或是数字人研究的朋友们来说,这绝对是一个值得关注的进展。简单来说,MHR模型旨在创建更富有表现力、解剖学上更合理的人体动画,它巧妙地结合了两种现有技术的优点,并引入了创新性的改进,让数字人的动作和形态都达到了一个新的高度。

在深入了解MHR之前,我们先来看看这篇重磅论文的基本信息:

数字人模型的“前世今生”

在计算机图形学领域,参数化人体模型扮演着核心角色。像我们熟知的SMPL、SMPL-X等模型,它们能用一组紧凑的参数(比如体型和姿态)来生成一个完整的三维人体网格。这项技术是虚拟试衣、动作捕捉和虚拟形象创建等应用的基石。

然而,经典的模型也存在一些固有的局限性。例如,在SMPL这类模型中,人体的骨骼关节位置是通过表面网格顶点加权计算得出的。这种设计导致了骨骼和身体外形(软组织)的“纠缠”,使得我们很难独立地去调整骨骼长度(比如让一个角色变高,但不变胖)或精确地塑造体型。这对于追求细节的艺术家和开发者来说,无疑是一个痛点。

为了解决这个问题,ATLAS模型率先提出了解耦骨骼与外形的思想,允许对骨骼和表面进行独立控制。MHR正是在这一思想的基础上,进一步融合了Momentum库的灵活性和现代化的绑定系统,旨在打造一个表现力更强、更符合解剖学原理的全新模型。

MHR模型的核心创新

MHR模型的设计哲学是“解耦”与“精控”。它将人体分为几个可以独立控制的部分,并对姿态引起的变化进行了更精细的建模。其核心可以概括为以下几点:

骨骼、体型和姿态的完全解耦

MHR的第一个亮点,就是它彻底分离了骨骼结构(Skeletal Structure)、身份体型(Identity Shape)和姿态(Pose)。

  • 独立的骨骼系统:MHR的骨骼系统基于Momentum库构建,拥有127个关节。与以往模型不同,骨骼的长度、位置等属性可以被直接、独立地调整,而不会意外地影响到身体的胖瘦。这为创建不同身高、臂展和腿长的角色提供了极大的便利。论文中的图示非常直观地展示了改变单一骨骼参数的效果,例如拉长手臂或大腿,而身体其他部分保持不变。

  • 分区的身份空间 (Partitioned Identity Space) :为了更精细地控制体型,MHR将身份体型空间划分为了三个独立的部分:身体、头部和手部。这意味着你可以使用不同的参数集分别调整这三个区域的形状,比如单独改变一个人的脸型,而身体和手保持不变。这种设计不仅让艺术家的创作更自由,也使得模型可以利用来自不同大型扫描数据集的优势,分别针对身体、头部和手部进行学习,从而提升各部分的细节和保真度。

  • 丰富的表情系统:MHR还包含一个由艺术家雕刻的、基于面部动作编码系统(FACS)的表情空间。这个系统包含了72个语义化的表情,比如抬眉、微笑等,它们是稀疏且明确的,使得表情控制更加直观和精准。

下图展示了MHR身份空间中身体、面部和手部的前几个主成分变化效果,可以看出其对局部形态的强大控制力。

创新的稀疏非线性姿态校正

当人体做出大幅度动作时(比如弯曲手肘或膝盖),皮肤和肌肉会产生复杂的变形,这被称为“软组织变形”。传统的线性混合蒙皮(LBS)技术很难完美模拟这种效果,经常会导致“糖纸包裹”等不自然现象。因此,需要额外的“姿态校正”来修正。

SMPL-X等模型虽然有姿态校正,但其校正量是全局性的,一个关节的运动可能会影响到全身的顶点,这在物理上是不准确的。

MHR在这里提出了一个非常巧妙的方案:稀疏非线性姿态校正 (Sparse, Non-Linear Pose Correctives)。它将校正过程分解为两步:

  1. 局部非线性编码:首先,一个轻量级的多层感知机(MLP)网络会处理每个关节及其相邻关节的姿态信息,生成一个编码了局部姿态变化的特征。这个过程是非线性的,能够捕捉到更复杂的变形关系。

  2. 稀疏线性应用:然后,该特征会通过一个线性层,将变形应用到网格顶点上。关键在于,这个应用过程是稀疏的。通过一种基于测地线距离的初始化和L1正则化,模型能学习到每个关节的运动只影响其周围的一小片区域。

如下图所示,SMPL-X的姿态校正(第一行)影响范围很广,而MHR的校正(第三行)在训练后变得非常稀疏和局部化,更符合真实的肌肉运动原理。

这种设计结合了非线性模型的表现力和稀疏模型的局部性与效率,是MHR在技术上的一个重大突破。

实验效果如何?

说了这么多技术细节,MHR的实际表现究竟怎么样呢?论文在3DBodyTex这个公开数据集上,将MHR与SMPL和SMPL-X进行了详细的比较。

定量分析

在模型拟合3D扫描数据的任务上,研究人员评估了模型表面与真实扫描数据点之间的平均距离(即顶点到表面的误差)。结果显示,MHR在不同数量的拟合参数下,其拟合误差均显著低于SMPL和SMPL-X。这意味着MHR能够用更少的参数更准确地表达真实的人体形状。

定性分析

定性结果更加直观。从下图的比较中我们可以看到,无论是从模型与扫描的重叠度,还是从误差热力图来看,MHR(最右列)的拟合效果都远超前两者。特别是在关节处,如肩膀、肘部和膝盖,SMPL和SMPL-X的拟合偏差较大,而MHR则能非常贴合地重建出身体轮廓,尤其是在一些极端姿态下,优势更为明显。

总结与展望

总的来说,MHR通过将骨骼与体型解耦、引入分区的身份空间以及设计巧妙的稀疏非线性姿态校正系统,成功地创建了一个在表现力、准确性和艺术家友好性方面都超越以往工作的参数化人体模型。

这项工作不仅为AR/VR中的虚拟化身、电影和游戏中的角色动画提供了更强大的工具,也为计算机视觉领域中基于模型的3D人体姿态和形状估计等研究铺平了道路。虽然模型还有一些待完善之处,比如集成眼球和口腔系统,但MHR无疑为数字人技术的未来指明了一个清晰而令人兴奋的方向。

大家对MHR这个新模型有什么看法?你觉得它最可能在哪些领域大放异彩?欢迎在评论区一起交流讨论!

阅读原文

跳转微信打开

联系我们