动态列表

  • 全球95%企业AI惨败?MIT报告引硅谷恐慌!90%员工偷用ChatGPT续命
  • 全球第一!西湖大学成功登顶Science,卷赢同行背后黑科技揭秘
  • 马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
  • 刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
  • 可灵AI单季营收超2.5亿,快手财报里的「AI含金量」有多高?
  • NASA、IBM打造日地物理学首个开放式 AI 基础模型,用九年观测训练提升约16%耀斑预测准确率
  • 1 个月,2 场胜仗,李斌从「斌子」变成「斌神」
  • 球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
  • KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架
  • 即梦推出“智能多帧”功能 突破AI视频长镜头创作瓶颈
  • 从实验室到餐桌:Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
  • 那些让你「活人微死」的工作日,终于有救了
  • Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
  • 谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
  • 从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
  • 究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
  • ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
  • 对话小米 AI 眼镜负责人:20 天卖光库存,但属于产品的「长跑」才刚开始
  • DeepSeek V3.1 发布:更强的 Agent ,更贵的 API;多家网约车平台集体降抽成;影石发布 4K 画质「口袋相机」|极客早知道
  • 谷歌手机十年最狠升级,全家桶AI宣战苹果!一句话P图,100倍变焦
  • GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述
  • 打工半年后,Atlas觉醒!「大行为模型」零代码上新技能,AI工业革命来了?
  • DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
  • 刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
  • 摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
  • 微软AI CEO警告:我们需要警惕「看似有意识的AI」
  • ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
  • 汽车业务还没盈利,小米却已找到「第三曲线」
  • 通义APP上线官方知识库,首批覆盖教育、法律、金融等五大领域
  • AI Scientist生成的论文被指「剽窃」,回应称「未引用相关研究」,AI自动化科研还靠谱吗?
  • 击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
  • 千寻位置护航无人机表演,开启品牌多城联动新篇章
  • 刚刚,字节开源Seed-OSS-36B模型,512k上下文
  • 上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
  • OpenAI 单月营收已经破 10 亿美元;马斯克的 Grok,超 37 万条用户聊天记录「裸奔」;谷歌发布 AI 手机
  • 成为「流量黑马」的老品牌,如何借拼多多秒懂 00 后?
  • AI 的终点不是对话框,这家公司想让真实世界成为 AI 的提示词
  • 网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
  • 二十余名英国青年科学家在沪参与好望角科学沙龙活动
  • 为长视频生成减负!浙大与华为提出Compact Attention,挖掘结构化稀疏加速2.5倍
  • TPAMI 2025 | 骨架动作理解大一统:东南大学等提出USDRL,一个面向密集表征学习的基础模型
  • 报名开启|中关村国际青年论坛:诚邀全球青年学者共探AI前沿
  • Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
  • 「价格战」打了半年,吉利如何做到核心利润暴增102%?
  • 小鹏Q2财报「炸裂」:营收暴涨125%,毛利率反超特斯拉
  • Nature子刊 | 上智院统一框架RXNGraphormer,实现化学反应多任务精准预测,自发掌握分类规律
  • 首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
  • 智谱推出AutoGLM 2.0:手机 Agent 的「Manus 时刻」?
  • 论坛报名已启动,速来锁定席位!解码具身智能的落地挑战与产业爆点
  • DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
  • dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
  • DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
  • Meta超级智能实验室重组为四个部门,某些高管将离开
  • 黑神话系列第二作,《黑神话:钟馗》先导宣传片公布;小米卢伟冰:2027 年进军欧洲汽车市场;宇树预告新机器人
  • GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史
  • 微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?
  • 陶哲轩「断粮」后,25年首次绝望怒吼:美国科学命脉被砍断!
  • 16岁天才少年炒掉马斯克,空降华尔街巨头!9岁上大学,14岁进SpaceX
  • 中科慧远发布CASIVIBOT,以九年积累开启AOI与机器人协同的品质检测新时代
  • CVPR 2025 | DeCLIP:解耦CLIP注意力,哈工大(深圳)、港大提出通用开放词汇密集感知新框架
  • 英伟达ViPE:任意视频一键转为3D几何数据,开源引擎与亿级帧数据集重磅发布!
  • 强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
  • ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
  • 医疗AI安全革命:全球首个医疗动态红队测试框架DAS,破解临床落地信任危机
  • 谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
  • 7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
  • X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
  • 开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
  • 图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
  • 妙笔生维:线稿驱动的三维场景视频自由编辑
  • 一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器
  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • 突破长视频生成瓶颈:南大 × TeleAI 联合推出全新 AI 生成范式 MMPL,让创意“一镜到底”
  • ICCV 2025 | MobileViCLIP:快55倍!南大等提出首个高效“视频-文本模型,让多模态AI在手机可运行!
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • 一张图,开启四维时空:4DNeX让动态世界 「活」起来
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • 给DiT装上“迷你”控制舵:NanoControl实现高效精准控制,参数量仅增0.024%
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 机器人全产业链接会 FAIR plus 2026新闻发布会在京召开
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • ICCV 2025 | 告别“尬舞”,InterSyn交错式学习生成逼真多人交互动作
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道

ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测

图片

本文的第一作者为北京大学王选计算机研究所博士生雷廷,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、CVPR、ICCV、ICML 等顶会上有多项代表性成果发表,多次荣获多模态感知和生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。

目前的 HOI 检测方法普遍依赖视觉语言模型(VLM),但受限于图像编码器的表现,难以有效捕捉细粒度的区域级交互信息。本文介绍了一种全新的开集人类-物体交互(HOI)检测方法——交互感知提示与概念校准(INP-CC)。

为了解决这些问题,INP-CC 提出了一种动态生成交互感知提示的策略,并通过优化语言模型引导的概念校准,提升了模型对开放世界中的交互关系理解,本方法在 HICO-DET 和 SWIG-HOI 等主流数据集上取得了当前最佳性能。

图片
  • 论文标题: Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration

  • 论文链接:https://arxiv.org/pdf/2508.03207

  • 代码链接:https://github.com/ltttpku/INP-CC

  • 项目主页:https://sites.google.com/view/inp-cc/%E9%A6%96%E9%A1%B5

目前该研究已被 ICCV 2025 正式接收,相关代码与模型已全部开源。

HOI 检测进入「开放词汇」时代

在我们的日常生活中,人与物体之间的互动无处不在。然而,目前大多数研究主要集中在封闭环境下的人物交互检测,这些方法通常无法识别新的交互类型,因此在实际应用中受到限制。

近年来,多模态大模型得到了快速发展,并在开放环境中展现出巨大的应用潜力。如何将这些模型应用于开放场景中的人物交互检测,已经成为一个备受关注的研究方向。

传统的 HOI(人体-物体交互)检测方法通常依赖于固定类别的训练数据,难以应对现实中不断变化的交互组合。尽管像 CLIP 这样的视觉语言模型(VLM)为开放词汇的建模提供了新机会,但由于这些模型通常是基于图像级别的预训练,它们在捕捉人物与物体之间细微的局部交互语义时存在困难。另外,如何更有效地编码交互的文本描述,也限制了模型对复杂 HOI 关系的理解。

为了解决这些问题,研究团队提出了 INP-CC 模型,并在其中提出了两项核心创新:交互感知式提示生成(Interaction-aware Prompting)和概念校准(Concept Calibration)。

下图 1 中,展示了交互感知提示词融合机制。该机制使得模型可以在具有相似语义或功能模式的交互之间,选择性地共享提示。例如,「骑摩托车」和「骑马」这两种交互在人体和物体接触动态上非常相似,因此共享提示有助于更高效地学习这些交互的表示。

图 2 则展示了现有基于 CLIP 的方法在处理细粒度、多样化的交互类型时的局限性。例如,图中展示了「hurling」(猛掷)对应的视觉编码(用三角形表示)和「pitching」(抛投)的文本编码(用橙色圆圈表示)。可以看出,如左图所示,CLIP 模型的视觉编码和文本编码在这两者之间过于接近,导致模型难以区分它们。而与此对比,如右图所示,我们的方法通过调整语义编码空间,帮助模型有效区分视觉上相似的概念,从而更加高效地建模模态内和模态间的关系。

图片

      图 1 交互感知提示词融合

图片

      图 2 在 CLIP 原始空间(左侧)和我们修正后的空间(右侧)中模态内和模态间相似度。

模型架构:从「看图说话」到「聚焦交互」

图片

      图 3 INP-CC 方法框架

INP-CC 模型首先通过一个交互适应式提示生成器(图 3 灰色区域),结合输入图片特性,动态构造与场景相关的提示集合。这些提示被分为通用提示和可共享的交互提示,使得像「抱猫」和「抚摸猫」这样的相似动作可以共享同一个提示,从而提升模型对局部区域的感知能力。

在语言建模方面(图 3 浅蓝色区域),INP-CC 利用 GPT 生成各种交互的详细视觉描述,同时结合 T5 构建的 Instructor Embedding(指导嵌入)对交互语义进行嵌入和聚类,从而形成一个更细粒度的概念结构空间。这种方式帮助模型更好地理解复杂的交互语义,并将其映射到合适的语义空间中。

此外,INP-CC 在训练过程中引入了「困难负样本采样」策略,这一策略使得模型能够学会区分那些视觉上相似但语义不同的动作,例如「猛掷」和「抛投」。这一方法有效提升了模型在细粒度交互类型上的识别能力,帮助其更准确地理解和处理复杂的人物交互场景。

交互感知提示生成(Interaction-aware Prompt Generation)

为了弥合图像级预训练和细粒度区域交互检测之间的差距,INP-CC 提出了交互感知提示生成机制,通过动态生成适应不同交互模式的提示,指导视觉编码器更好地聚焦于关键的交互区域。具体来说,模型通过以下两个核心组成部分来实现这一目标:

  • 通用提示: 该提示捕获所有交互类别共享的基本知识,适用于所有交互类型。

  • 交互特定提示: 这些提示专门针对某些交互类型,采用低秩分解技术高效编码交互特征,从而在不增加计算负担的前提下增强模型的泛化能力。

通过将这些交互提示与通用提示结合,INP-CC 能够有效捕捉多种交互的共同特征,并通过自适应选择机制动态调整每张输入图像所需的提示,优化交互区域的聚焦能力。

交互概念校准(HOI Concept Calibration)

面对现有视觉-语言模型(VLM)在处理多样交互概念时的局限性,INP-CC 进一步引入了交互概念校准机制。该机制通过结合大规模语言模型对视觉描述进行生成与校准,提升了模型对语义细节的捕捉能力。

  • 内模关系建模(Intra-modal Relation Modeling): INP-CC 首先为每种交互类型生成细粒度的视觉描述,并利用 T5 语言模型将这些描述转化为嵌入向量。通过这一过程,模型能够精确区分视觉上相似但语义不同的动作类别。

  • 负类别采样(Negative Category Sampling): 为了解决视觉上相似但概念上不同的动作难以区分的问题,INP-CC 引入了基于语义相似度的负样本采样策略,在训练过程中从视觉描述相似的类别中采样负样本,帮助模型更好地分辨细粒度的动作差异。

实验表现:全面超越 SOTA

在 HICO-DET 和 SWIG-HOI 两大开放词汇 HOI 数据集上,INP-CC 在所有指标上均优于现有主流方法。其中,在 SWIG-HOI 全量测试集上取得了 16.74% 的 mAP,相较前一方法 CMD-SE 相对提升了近 10%,在「阅读」、「浏览」等细粒度交互中亦展现出较强的识别能力。

图片

                          图 4 HICO-DET 实验结果

图片

                          图 5 SWIG-HOI 实验结果

此外,可视化分析结果表明我们的模型表现出了强大的注意力集中能力,能够聚焦于关键的交互区域,以下是几个例子。例如,在图 6(a) 中,它准确地突出了阅读时的眼部区域。同样,在图 6(b) 中,模型强调了冲浪时人伸展的双臂。此外,我们的模型还能够检测到与相对较小物体的交互,比如在图 6(d) 中的相机和在图 6(a) 中部分遮挡的书籍。

图片

      图 6 可视化结果

总结:VLM + LLM 的深度融合路径

INP-CC 不仅打破了预训练视觉语言模型(VLM)在区域感知与概念理解上的瓶颈,还展现出将语言模型(LLM)知识引入计算机视觉任务的巨大潜力。通过构建「交互感知」与「语义修正」的双重引导机制,INP-CC 精准引导了 CLIP 的感知能力,为开放词汇场景下的 HOI 检测开辟了新路径。

]]>

联系我们