ToolsAi

CV君 2025-11-03 14:54 江苏

作为全球多媒体技术的顶级盛会，第33届ACM国际多媒体会议（ACM Multimedia 2025）在爱尔兰都柏林圆满落幕。本届大会汇聚了全球顶尖的学者与工程师，以超过7100份的论文提交和突破2000人的参会规模，再次证明了其在学术界和工业界的巨大影响力。

在众多杰出的研究中，今年的几项大奖不约而同地指向了一个激动人心的方向：让AI走出虚拟世界，更深入地理解和融入物理现实。从教会机器人“怎么用”物体，到赋予其“左右脑”进行思考，再到革新我们获取知识的方式，这些获奖作品为我们描绘了一幅多媒体技术驱动未来的宏伟蓝图。

最佳论文奖：Aff3DFunc，让机器人不仅“认识”物体，更懂“怎么用”

当一个机器人看到一把刀，它应该抓住哪里？是锋利的刀刃，还是安全的刀柄？对人类来说，答案显而易见，但对机器人而言，这却是一个巨大的挑战。让机器人从“识别物体”进化到“理解如何与物体交互”，是实现真正具身智能的关键。这个“如何交互”的属性，在学术上被称为“功能可供性”（Affordance）。

来自英国格拉斯哥大学的研究者们凭借其名为 Aff3DFunc 的新框架，斩获了本年度的 ACM MM 2025 最佳论文奖。这项研究为功能可供性的理解带来了突破性进展。

论文标题: Open-Vocabulary 3D Affordance Understanding via Functional Text Enhancement and Multilevel Representation Alignment
作者机构: 英国格拉斯哥大学
论文地址:https://dl.acm.org/doi/10.1145/3746027.3755239
代码仓库: https://github.com/wulin97/Aff3DFunc

传统方法通常使用简单的“标签”（如“刀柄”）进行学习，但这在面对新物体和新指令时泛化能力很差。Aff3DFunc的核心创新在于两点：

功能性文本增强 (FTE): 研究者利用大语言模型（LLM），将一个简单的标签（如“grasp”）从动作、功能等多个角度，扩充为丰富的“功能性文本描述”（如“用手握住物体”）。这让机器对指令的理解不再停留在表面。
多层次表示对齐: 框架在3D点云网络的不同层级上，都将增强后的文本描述与物体的几何形状进行对齐，通过监督对比学习“拉近”匹配的特征，“推远”不匹配的特征，从而建立起更鲁棒的对应关系。

实验结果令人惊艳。在最具挑战性的零样本检测任务中，Aff3DFunc的 mIoU达到了0.2942，相比之前的最佳方法提升了超过7个百分点。更令人兴奋的是，在真实的机器人操作验证中，Aff3DFunc能够准确引导机械臂抓住刀柄和耳机头梁等正确的功能区域，而对比方法则出现了可能导致危险的错误。这标志着AI在与物理世界交互的安全性与实用性上迈出了坚实的一步。

最佳学生论文奖：EvoAgent，为具身智能体安上“左右脑”

如果说Aff3DFunc教会了AI如何“理解”物体的用途，那么另一项荣获 ACM MM 2025 最佳学生论文奖 的工作则探索了如何让AI拥有像人一样的“思维”来规划和行动。

这项由中国科学院自动化研究所、联想集团等机构共同完成的研究，从人脑的结构中获得灵感，提出了一个全新的具身智能体构建范式——EvoAgent。

论文标题: Building Embodied EvoAgent : A Brain-inspired Paradigm for Bridging Multimodal Large Models and World Models
作者机构: 中国科学院, 中国科学院大学, 联想集团, 深圳鹏城实验室
论文地址:https://dl.acm.org/doi/10.1145/3746027.3754880
项目主页: https://feliciaxyao.github.io/EvoAgent/

研究者模仿人脑左右半球的协同工作机制，创新性地提出了 BEEA (脑启发具身进化智能体) 框架：

左半球 (EC-MLLM): 使用一个“具身情境增强的多模态大模型”，负责处理语言和视觉输入，理解任务指令，如同大脑的语言和逻辑中枢。
右半球 (PC-WM): 使用一个“感知情境引导的世界模型”，负责对环境动态进行建模和预测，模拟大脑的空间感知和“脑补”能力。
胼胝体 (DCS): 设计了一个“动态通信插槽”，通过双向消息传递连接“左右脑”，并支持在线的自进化，让智能体在交互中动态调整、快速适应。

这个“双脑协同”的智能体在多个具身智能任务上取得了显著成功。在REVERIE和SOON等经典导航任务上，它将基线模型的成功率（SPL）分别从31.01提升至 37.28 和从26.19提升至 30.97。更重要的是，它在从未见过的“域外”任务上也表现出强大的零样本泛化能力。这种“左脑理解、右脑脑补”的仿生设计，为通往更通用、更具适应性的具身智能体开辟了一条极具启发性的新路径。

最佳开源软件奖：看网课神器，让视频学习进入“互动时代”

项目名称: Video Lecture Analysis Toolkit
参考论文: Video Lecture Analysis Toolkit: An Open-Source Framework for Interactive Learning
作者机构: 法国图卢兹计算机科学研究所 (IRIT), 新加坡国立大学
论文地址:https://dl.acm.org/doi/10.1145/3746027.3756873
代码仓库: https://github.com/travisseng/svla-toolkit
在线演示: https://travis-seng.fr/svla

当尖端AI正在深入物理世界的同时，多媒体技术也在重塑我们与数字内容的交互方式。面对动辄一两个小时的网课视频，想找一个知识点却只能靠拖动进度条反复“考古”？今年的 ACM MM 2025 最佳开源软件奖 就为我们带来了一款颠覆传统在线学习体验的“看网课神器”。

由法国图卢兹计算机科学研究所和新加坡国立大学联合开发的 “视频讲座分析工具包”，旨在将线性的、被动的视频观看，转变为非线性的、主动的知识探索。

这款完全开源的工具提供了一个强大的仪表盘界面，其背后是一整套智能分析流程：

内容自动结构化: 利用Whisper模型生成高精度字幕，通过OCR技术提取PPT上的所有文字，再借助大语言模型（如Gemini）自动划分章节并生成摘要。
前所未有的“交互层”: 这是该工具最大的创新。激活后，用户就获得了对视频画面的“上帝模式”。可以随意拖动、缩放甚至“P掉”演讲者窗口；点击讲稿中的一句话，视频会自动跳转到对应时间点，PPT上的相关内容也会高亮显示。反之亦然。

这个工具不仅是学生的复习利器，也是研究者的实验平台。它将原本固化的视频信息流彻底“打碎”并重组为可交互、可检索的知识库，预示着下一代在线学习工具的到来。

结语

从理解物体功能、模拟人类思维，到革新知识获取方式，ACM Multimedia 2025的获奖作品共同揭示了多媒体技术的核心趋势：构建更智能、更具交互性的桥梁，连接数字世界与物理现实，连接信息与人类认知。这些前沿探索不仅在学术上取得了突破，更预示着一个AI与人类生活无缝融合的未来正在加速到来。

ACM MM 2025 目前所有论文均开放下载，感兴趣的朋友可查看：

https://dl.acm.org/doi/proceedings/10.1145/3746027

阅读原文

跳转微信打开

动态列表

多媒体顶会ACM MM 2025 最佳论文公布，从“看懂”到“会用”，再到“会思考”：揭示AI与物理世界融合新篇章

最佳论文奖：Aff3DFunc，让机器人不仅“认识”物体，更懂“怎么用”

最佳学生论文奖：EvoAgent，为具身智能体安上“左右脑”

最佳开源软件奖：看网课神器，让视频学习进入“互动时代”

结语

类别

资源

联系我们