动态列表

  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道

3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式

CV君 2025-11-11 12:18 江苏

从看懂到说清,AI理解人体动作的下一个里程碑。

3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式

大家好!今天想和大家聊一篇非常有意思的新工作,来自特伦托大学等机构的研究者们,它发表在3DV 2026上。这篇论文“Dense Motion Captioning”提出了一项全新的任务、一个大规模的数据集和一个创新的模型,旨在让AI更深入、更精细地理解人类的3D动作。

近年来,AI在“看图说话”甚至“按文本生成动作”方面取得了不小的进步,但反过来,让AI“看懂动作并生成详细描述”的研究却相对滞后。现有的工作大多只能处理简短、单一的动作,面对一段包含多个连续动作的复杂序列时,就显得力不从心了。

为了解决这个“看得懂,但说不清”的难题,作者们首先提出了一个全新的任务——密集动作描述(Dense Motion Captioning, DMC)。这个任务要求模型不仅要识别出一段长动作序列中的每一个有意义的动作片段,还要为每个片段生成准确的文本描述,并给出精确的起止时间。就像给一部电影的每个镜头都配上字幕一样,只不过这里的“电影”是3D人体动作。

  • 论文标题: Dense Motion Captioning

  • 作者: Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota等

  • 机构: 特伦托大学、古斯塔夫·埃菲尔大学(Université Gustave Eiffel)

  • 会议: 3DV 2026

  • 论文地址: https://arxiv.org/abs/2511.05369

  • 项目主页: https://xusy2333.com/demo

CompMo:为复杂动作理解量身打造的“教科书”

巧妇难为无米之炊。要完成DMC这么复杂的任务,一个高质量的数据集是必不可少的。然而,现有的数据集要么动作太短,要么缺少精确的时间戳标注。

为此,作者们精心构建了第一个专为DMC任务设计的大规模数据集——CompMo (Complex Motion Dataset)。这个数据集包含了 60,000 个复杂的3D动作序列,每个序列由 2到10个 不等的原子动作构成。更重要的是,每个原子动作都被精确地标注了时间边界和丰富的文本描述。与之前的数据集相比,CompMo在序列长度、动作复杂度和标注密度上都实现了质的飞跃。

CompMo的构建过程也相当有启发性,大致分为三步:

  1. 原子动作收集: 从现有的高质量数据集中筛选出简单的、单一的“原子动作”及其描述。

  2. 动作序列合成: 像搭积木一样,将多个原子动作拼接成一个长而复杂的动作序列,并生成对应的文本描述和时间戳。

  3. 动作序列生成: 利用先进的动作生成模型,对拼接好的序列进行“润色”,使其过渡更自然、动作更逼真,最终生成高质量的训练数据。

DEMO:LLM驱动的动作解读专家

有了好的数据集,就需要一个足够聪明的模型来学习。作者们提出了DEMO (DEnse MOtion captioning)模型,一个巧妙融合了大型语言模型(LLM)和轻量级运动适配器的架构。

DEMO的原理可以这样理解:

  • 输入: 一段3D动作序列 和一段指令文本 (例如,“请描述这段动作”)。

  • 运动适配器 (Motion Adapter): 这是DEMO的核心创新之一。它的作用是充当“翻译官”,将计算机理解的3D动作数据(一堆数字)转换成LLM能“读懂”的语言嵌入向量。这个适配器由一个时空编码器和一个线性投影层构成,其数学表达为:

    这里, 是时空编码器, 是投影层,它们共同将动作特征 映射到LLM的语义空间。

  • 大型语言模型 (LLM): 接收到翻译后的动作信息和指令后,强大的LLM(论文中使用了Llama-3.1-8B)开始发挥它的“理解和生成”能力,自回归地输出带有时间戳的密集描述。

  • 输出: 格式化的文本,例如 [00:00:00]: 大步向前迈出右腿, [00:06:55]: 假装自己是霸王龙

为了让DEMO学会这项新技能,作者设计了一个两阶段训练策略

  1. 第一阶段:动作-语言对齐预训练。先在单动作数据集(HumanML3D)上训练运动适配器,让它学会如何准确地将动作“翻译”成语言。这个阶段只更新适配器的参数,LLM保持冻结。

  2. 第二阶段:密集描述指令微调。在CompMo数据集上,使用LoRA技术高效地微调LLM,同时联合微调已经预训练好的运动适配器。这个阶段的目标是教会模型理解长序列,并按照指令生成带时间戳的密集描述。

实验效果:全面超越,树立新标杆

是骡子是马,拉出来遛遛。DEMO在新建的CompMo数据集和另一个改编的基准(H3D ∩ BABEL)上都接受了严格的考验。

从上表可以看到,无论是在描述生成的质量(如CIDEr、ROUGE_L等指标)还是在时间定位的准确度(tIoU)上,DEMO都大幅超越了现有的基线方法UniMotion。特别是在更具挑战性的CompMo数据集上,DEMO的优势尤为明显,例如在tIoU@0.5指标上,DEMO达到了 58.21% ,而UniMotion仅为4.00%。这充分证明了DEMO架构和两阶段训练策略的有效性。

上图的定性结果更直观地展示了DEMO的强大。对于一段包含“转身、行走、挥手”的复杂动作,DEMO能够准确地切分出各个阶段并给出贴切的描述,而基线模型则出现了明显的漏检和描述错误。

此外,消融实验也验证了模型各个设计的重要性。例如,与不经过预训练直接进行端到-端微调相比,两阶段训练策略带来了巨大的性能提升。同时,作者提出的连续运动表征方法也显著优于传统的VQ-VAE离散化方法。

总结

总的来说,这篇论文通过提出DMC任务、构建CompMo数据集和设计DEMO模型,为3D动作理解领域开辟了一个激动人心的新方向。它不仅为更精细化的人机交互、视频内容分析等应用奠定了基础,其“领域适配器+LLM”的设计思路也为其他多模态研究提供了宝贵的借鉴。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们