动态列表

  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 港中文&港科大等提出FullPart:让3D部件生成达到全分辨率精度
  • 从 「会思考」到 「善创造」: 多模态大模型的深度推理与协同进化
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图

多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章

CV君 2025-11-03 14:54 江苏

作为全球多媒体技术的顶级盛会,第33届ACM国际多媒体会议(ACM Multimedia 2025)在爱尔兰都柏林圆满落幕。本届大会汇聚了全球顶尖的学者与工程师,以超过7100份的论文提交和突破2000人的参会规模,再次证明了其在学术界和工业界的巨大影响力。

在众多杰出的研究中,今年的几项大奖不约而同地指向了一个激动人心的方向:让AI走出虚拟世界,更深入地理解和融入物理现实。从教会机器人“怎么用”物体,到赋予其“左右脑”进行思考,再到革新我们获取知识的方式,这些获奖作品为我们描绘了一幅多媒体技术驱动未来的宏伟蓝图。


最佳论文奖:Aff3DFunc,让机器人不仅“认识”物体,更懂“怎么用”

当一个机器人看到一把刀,它应该抓住哪里?是锋利的刀刃,还是安全的刀柄?对人类来说,答案显而易见,但对机器人而言,这却是一个巨大的挑战。让机器人从“识别物体”进化到“理解如何与物体交互”,是实现真正具身智能的关键。这个“如何交互”的属性,在学术上被称为“功能可供性”(Affordance)。

来自英国格拉斯哥大学的研究者们凭借其名为 Aff3DFunc 的新框架,斩获了本年度的 ACM MM 2025 最佳论文奖。这项研究为功能可供性的理解带来了突破性进展。

传统方法通常使用简单的“标签”(如“刀柄”)进行学习,但这在面对新物体和新指令时泛化能力很差。Aff3DFunc的核心创新在于两点:

  1. 功能性文本增强 (FTE): 研究者利用大语言模型(LLM),将一个简单的标签(如“grasp”)从动作、功能等多个角度,扩充为丰富的“功能性文本描述”(如“用手握住物体”)。这让机器对指令的理解不再停留在表面。

  2. 多层次表示对齐: 框架在3D点云网络的不同层级上,都将增强后的文本描述与物体的几何形状进行对齐,通过监督对比学习“拉近”匹配的特征,“推远”不匹配的特征,从而建立起更鲁棒的对应关系。

实验结果令人惊艳。在最具挑战性的零样本检测任务中,Aff3DFunc的 mIoU达到了0.2942,相比之前的最佳方法提升了超过7个百分点。更令人兴奋的是,在真实的机器人操作验证中,Aff3DFunc能够准确引导机械臂抓住刀柄和耳机头梁等正确的功能区域,而对比方法则出现了可能导致危险的错误。这标志着AI在与物理世界交互的安全性与实用性上迈出了坚实的一步。


最佳学生论文奖:EvoAgent,为具身智能体安上“左右脑”

如果说Aff3DFunc教会了AI如何“理解”物体的用途,那么另一项荣获 ACM MM 2025 最佳学生论文奖 的工作则探索了如何让AI拥有像人一样的“思维”来规划和行动。

这项由中国科学院自动化研究所、联想集团等机构共同完成的研究,从人脑的结构中获得灵感,提出了一个全新的具身智能体构建范式——EvoAgent

研究者模仿人脑左右半球的协同工作机制,创新性地提出了 BEEA (脑启发具身进化智能体) 框架:

  • 左半球 (EC-MLLM): 使用一个“具身情境增强的多模态大模型”,负责处理语言和视觉输入,理解任务指令,如同大脑的语言和逻辑中枢。

  • 右半球 (PC-WM): 使用一个“感知情境引导的世界模型”,负责对环境动态进行建模和预测,模拟大脑的空间感知和“脑补”能力。

  • 胼胝体 (DCS): 设计了一个“动态通信插槽”,通过双向消息传递连接“左右脑”,并支持在线的自进化,让智能体在交互中动态调整、快速适应。

这个“双脑协同”的智能体在多个具身智能任务上取得了显著成功。在REVERIE和SOON等经典导航任务上,它将基线模型的成功率(SPL)分别从31.01提升至 37.28 和从26.19提升至 30.97。更重要的是,它在从未见过的“域外”任务上也表现出强大的零样本泛化能力。这种“左脑理解、右脑脑补”的仿生设计,为通往更通用、更具适应性的具身智能体开辟了一条极具启发性的新路径。


最佳开源软件奖:看网课神器,让视频学习进入“互动时代”

当尖端AI正在深入物理世界的同时,多媒体技术也在重塑我们与数字内容的交互方式。面对动辄一两个小时的网课视频,想找一个知识点却只能靠拖动进度条反复“考古”?今年的 ACM MM 2025 最佳开源软件奖 就为我们带来了一款颠覆传统在线学习体验的“看网课神器”。

由法国图卢兹计算机科学研究所和新加坡国立大学联合开发的 “视频讲座分析工具包”,旨在将线性的、被动的视频观看,转变为非线性的、主动的知识探索。

这款完全开源的工具提供了一个强大的仪表盘界面,其背后是一整套智能分析流程:

  • 内容自动结构化: 利用Whisper模型生成高精度字幕,通过OCR技术提取PPT上的所有文字,再借助大语言模型(如Gemini)自动划分章节并生成摘要。

  • 前所未有的“交互层”: 这是该工具最大的创新。激活后,用户就获得了对视频画面的“上帝模式”。可以随意拖动、缩放甚至“P掉”演讲者窗口;点击讲稿中的一句话,视频会自动跳转到对应时间点,PPT上的相关内容也会高亮显示。反之亦然。

这个工具不仅是学生的复习利器,也是研究者的实验平台。它将原本固化的视频信息流彻底“打碎”并重组为可交互、可检索的知识库,预示着下一代在线学习工具的到来。

结语

从理解物体功能、模拟人类思维,到革新知识获取方式,ACM Multimedia 2025的获奖作品共同揭示了多媒体技术的核心趋势:构建更智能、更具交互性的桥梁,连接数字世界与物理现实,连接信息与人类认知。这些前沿探索不仅在学术上取得了突破,更预示着一个AI与人类生活无缝融合的未来正在加速到来。

ACM MM 2025 目前所有论文均开放下载,感兴趣的朋友可查看:

https://dl.acm.org/doi/proceedings/10.1145/3746027

阅读原文

跳转微信打开

联系我们