动态列表

全球95%企业AI惨败？MIT报告引硅谷恐慌！90%员工偷用ChatGPT续命
全球第一！西湖大学成功登顶Science，卷赢同行背后黑科技揭秘
马斯克Grok-4卖货创收碾压GPT-5！AI卖货排行榜曝光，AGI的尽头是卖薯片？
刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？
可灵AI单季营收超2.5亿，快手财报里的「AI含金量」有多高？
NASA、IBM打造日地物理学首个开放式 AI 基础模型，用九年观测训练提升约16%耀斑预测准确率
1 个月，2 场胜仗，李斌从「斌子」变成「斌神」
球首款AI原生游戏引擎再进化：GTA6再不来，我们就AI一个
KDD 2025 Best Paper Runner-Up | EI-BERT：超紧凑语言模型压缩框架
即梦推出“智能多帧”功能突破AI视频长镜头创作瓶颈
从实验室到餐桌：Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
那些让你「活人微死」的工作日，终于有救了
Cursor为Blackwell从零构建MXFP8内核，MoE层提速3.5倍，端到端训练提速1.5倍
谷歌Gemini一次提示能耗≈看9秒电视，专家：别太信，有误导性
从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践
究竟会花落谁家？DeepSeek最新大模型瞄准了下一代国产AI芯片
ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式
对话小米 AI 眼镜负责人：20 天卖光库存，但属于产品的「长跑」才刚开始
DeepSeek V3.1 发布：更强的 Agent ，更贵的 API；多家网约车平台集体降抽成；影石发布 4K 画质「口袋相机」｜极客早知道
谷歌手机十年最狠升级，全家桶AI宣战苹果！一句话P图，100倍变焦
GPT-5点赞！八大顶尖机构发布「自进化智能体」全面综述
打工半年后，Atlas觉醒！「大行为模型」零代码上新技能，AI工业革命来了？
DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍
刚刚，好莱坞特效师展示AI生成的中文科幻大片，成本只有330元
摆脱遥控器，波士顿动力人形机器人，开始「长脑子」干活了
微软AI CEO警告：我们需要警惕「看似有意识的AI」
ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力
汽车业务还没盈利，小米却已找到「第三曲线」
通义APP上线官方知识库，首批覆盖教育、法律、金融等五大领域
AI Scientist生成的论文被指「剽窃」，回应称「未引用相关研究」，AI自动化科研还靠谱吗？
击败Meta登榜首：推理增强的文档排序模型ReasonRank来了
千寻位置护航无人机表演，开启品牌多城联动新篇章
刚刚，字节开源Seed-OSS-36B模型，512k上下文
上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型
OpenAI 单月营收已经破 10 亿美元；马斯克的 Grok，超 37 万条用户聊天记录「裸奔」；谷歌发布 AI 手机
成为「流量黑马」的老品牌，如何借拼多多秒懂 00 后？
AI 的终点不是对话框，这家公司想让真实世界成为 AI 的提示词
网易有道发布子曰教育大模型多款AI新品，定义教育AI应用能力L1-L5分级
二十余名英国青年科学家在沪参与好望角科学沙龙活动
为长视频生成减负！浙大与华为提出Compact Attention，挖掘结构化稀疏加速2.5倍
TPAMI 2025 | 骨架动作理解大一统：东南大学等提出USDRL，一个面向密集表征学习的基础模型
报名开启｜中关村国际青年论坛：诚邀全球青年学者共探AI前沿
Sora没做到的，LongVie框架给解决了，超长视频生成SOTA
「价格战」打了半年，吉利如何做到核心利润暴增102%？
小鹏Q2财报「炸裂」：营收暴涨125%，毛利率反超特斯拉
Nature子刊 | 上智院统一框架RXNGraphormer，实现化学反应多任务精准预测，自发掌握分类规律
首个面向肽分子设计的大模型平台：直接「读序列」出结合子，无需结构输入即可生成
智谱推出AutoGLM 2.0：手机 Agent 的「Manus 时刻」？
论坛报名已启动，速来锁定席位！解码具身智能的落地挑战与产业爆点
DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学
dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型
DeepSeek开源新基础模型，但不是V4，而是V3.1-Base
Meta超级智能实验室重组为四个部门，某些高管将离开
ICCV 2025 | 跨越视觉与语言边界，打开人机交互感知的新篇章：北大团队提出INP-CC模型重塑开放词汇HOI检测
黑神话系列第二作，《黑神话：钟馗》先导宣传片公布；小米卢伟冰：2027 年进军欧洲汽车市场；宇树预告新机器人
GPT-5暴写「屎山代码」！14个Prompt，看穿GPT-1到GPT-5七年智商进化史
微软最新揭秘：「话痨实习生」AI助手，到底能帮人类做什么？
陶哲轩「断粮」后，25年首次绝望怒吼：美国科学命脉被砍断！
16岁天才少年炒掉马斯克，空降华尔街巨头！9岁上大学，14岁进SpaceX
中科慧远发布CASIVIBOT，以九年积累开启AOI与机器人协同的品质检测新时代
英伟达ViPE：任意视频一键转为3D几何数据，开源引擎与亿级帧数据集重磅发布！
CVPR 2025 | DeCLIP：解耦CLIP注意力，哈工大（深圳）、港大提出通用开放词汇密集感知新框架
强化学习之父Richard Sutton最新演讲揭示OaK架构：通向超级智能的八步愿景
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
医疗AI安全革命：全球首个医疗动态红队测试框架DAS，破解临床落地信任危机
谷歌在上海办了场 AI 嘉年华，开发者们却说像逛「AI 基地」
7年了，OpenAI官方给出五代GPT对比，网友却怀念起「狂野」初代
X-SAM：从「分割一切」到「任意分割」：统一图像分割多模态大模型，在20+个图像分割数据集上均达SoTA
开源版Genie 3世界模型来了：实时+长时间交互，单卡可跑，国内公司出品
图生视频新玩法刷爆外网：图上画两笔就能动起来，终于告别文本提示
妙笔生维：线稿驱动的三维场景视频自由编辑
一句话，性能暴涨49%！马里兰MIT等力作：Prompt才是大模型终极武器
Z世代生存、学习与未来宣言！伯克利学霸预言课堂，用AI设计人生
AI来了！记者、UP主、写手，谁能逃过这场「灭绝浪潮」？
Hinton预言成真！AI接管美国一半白领，牛津哈佛扎堆转行做技工
为什么「游戏」是 AI 陪伴落地的好场景？
新加坡 AI 办公系统 Agnes：200 个 Agent 并行研究，让 AI 主动「找茬」打磨设计
机器人也会「摸鱼」了？宇树G1赛后葛优瘫刷美女视频，网友：比人还懂享受生活
从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路
NextStep-1：一次在图像生成上自回归范式的探索
KDD 2025 | UoMo来了，首个无线网络流量预测模型，一个框架搞定三类任务
突破长视频生成瓶颈：南大 × TeleAI 联合推出全新 AI 生成范式 MMPL，让创意“一镜到底”
ICCV 2025 | MobileViCLIP：快55倍！南大等提出首个高效“视频-文本模型，让多模态AI在手机可运行！
开源扩散大模型首次跑赢自回归！上交大联手UCSD推出D2F，吞吐量达LLaMA3的2.5倍
一张图，开启四维时空：4DNeX让动态世界「活」起来
AI发现新物理定律：纠正等离子体理论多年错误假设
多模态大模型在化学与材料学的「体检表」——哪些能力靠谱，哪些还差很远？
Altman：希望 AGI 能提高生育率；与辉同行否认董宇辉年收入二三十亿元；今年国内智能眼镜市场同比增长121.1%
刚刚！谷歌内部揭秘Genie 3：Sora后最强AI爆款，开启世界模型新时代
硬核拆解！从GPT-2到gpt-oss，揭秘大模型进化关键密码
黄仁勋子女逆袭上位！4万亿「皇储」成长史首曝：一个学烘培，一个开酒吧
GPT-5首次会推理，OpenAI联创曝AGI秘诀！超临界学习吞噬算力，2045金钱无用？
400万人围观的分层推理模型，「分层架构」竟不起作用？性能提升另有隐情？
CoRL 2025｜隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
SEAgent：开启从实战经验中自我进化的GUI智能体新纪元
给DiT装上“迷你”控制舵：NanoControl实现高效精准控制，参数量仅增0.024%
OpenAI估值达5000亿美元；「原道」联手小岛秀夫，推《死亡搁浅》耳机；苹果手表将「大幅重新设计」
奥特曼神秘晚宴讲话曝出！OpenAI的CEO或将是个AI，Chrome我也想买
谷歌最新「0.27B」Gemma 3开源！身板小却猛如虎，开发者直呼救命稻草
最惨就业季！CS学霸GPA 3.98，投2500份简历仅10次面试，AI吞噬入门级岗位
Yann LeCun最新纪录片首曝！传奇AI教父的双面人生，深度学习幕后40年
机器人全产业链接会 FAIR plus 2026新闻发布会在京召开
大模型如何推理？斯坦福CS25重要一课，DeepMind首席科学家主讲
当AI比我们更聪明：李飞飞和Hinton给出截然相反的生存指南
简单即强大：全新生成模型「离散分布网络DDN」是如何做到原理简单，性质独特？
ICCV 2025 | 告别“尬舞”，InterSyn交错式学习生成逼真多人交互动作
Sam Altman：AI存在泡沫；宇树机器人夺金，王兴兴：用遥控追求极致速度；蔡浩宇AI游戏上架，27.19元｜极客早知道

ICCV 2025 (Oral) | DPoser-X：基于扩散模型的鲁棒3D全身人体姿态先验，树立领域新标杆

2025-08-15未知作者来源

CV君 2025-08-15 11:47 江苏

本篇介绍的论文是《DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior》。这项研究提出了一种名为DPoser-X的创新方法，它利用扩散模型作为强大的先验，来解决复杂且富有挑战性的3D全身人体姿态建模问题。该方法不仅统一了多种以姿态为中心的任务，还在多个基准测试中取得了SOTA（State-of-the-art）的效果，为该领域树立了新的标杆。

作者: Junzhe Lu, Jing Lin, Hongkun Dou, Ailing Zeng, Yue Deng, Xian Liu, Zhongang Cai, Lei Yang, Yulun Zhang, Haoqian Wang, Ziwei Liu
机构: 清华大学、南洋理工大学、北京航空航天大学、Anuttacon、英伟达、商汤科技、上海交通大学
论文地址: https://arxiv.org/pdf/2508.00599v1
项目地址: https://github.com/moonbow721/DPoser
录用会议: ICCV 2025 (Oral)

研究背景

3D人体姿态估计的目标是从图像或视频中恢复人体的三维姿态。这是一个在计算机视觉领域中非常基础且重要的任务，在虚拟现实、人机交互、医疗健康等领域都有广泛应用。然而，构建一个通用且鲁棒的全身人体姿态先验模型（prior model）一直是个难题。这主要是因为人体姿态本身具有高度的灵活性和复杂性（铰接式结构），同时，高质量的、包含全身（身体、手部、面部）细节的3D姿态数据集又非常稀缺。

现有的方法，如VPoser，虽然在特定部位的姿态建模上表现不错，但在处理全身姿态时，往往难以捕捉到身体、手部和面部之间复杂的相互依赖关系，导致生成的姿态不够自然或准确。