CV君 2025-11-03 14:54 江苏
作为全球多媒体技术的顶级盛会,第33届ACM国际多媒体会议(ACM Multimedia 2025)在爱尔兰都柏林圆满落幕。本届大会汇聚了全球顶尖的学者与工程师,以超过7100份的论文提交和突破2000人的参会规模,再次证明了其在学术界和工业界的巨大影响力。
在众多杰出的研究中,今年的几项大奖不约而同地指向了一个激动人心的方向:让AI走出虚拟世界,更深入地理解和融入物理现实。从教会机器人“怎么用”物体,到赋予其“左右脑”进行思考,再到革新我们获取知识的方式,这些获奖作品为我们描绘了一幅多媒体技术驱动未来的宏伟蓝图。
最佳论文奖:Aff3DFunc,让机器人不仅“认识”物体,更懂“怎么用”
当一个机器人看到一把刀,它应该抓住哪里?是锋利的刀刃,还是安全的刀柄?对人类来说,答案显而易见,但对机器人而言,这却是一个巨大的挑战。让机器人从“识别物体”进化到“理解如何与物体交互”,是实现真正具身智能的关键。这个“如何交互”的属性,在学术上被称为“功能可供性”(Affordance)。
来自英国格拉斯哥大学的研究者们凭借其名为 Aff3DFunc 的新框架,斩获了本年度的 ACM MM 2025 最佳论文奖。这项研究为功能可供性的理解带来了突破性进展。
论文标题: Open-Vocabulary 3D Affordance Understanding via Functional Text Enhancement and Multilevel Representation Alignment
作者机构: 英国格拉斯哥大学
传统方法通常使用简单的“标签”(如“刀柄”)进行学习,但这在面对新物体和新指令时泛化能力很差。Aff3DFunc的核心创新在于两点:
功能性文本增强 (FTE): 研究者利用大语言模型(LLM),将一个简单的标签(如“grasp”)从动作、功能等多个角度,扩充为丰富的“功能性文本描述”(如“用手握住物体”)。这让机器对指令的理解不再停留在表面。
多层次表示对齐: 框架在3D点云网络的不同层级上,都将增强后的文本描述与物体的几何形状进行对齐,通过监督对比学习“拉近”匹配的特征,“推远”不匹配的特征,从而建立起更鲁棒的对应关系。
实验结果令人惊艳。在最具挑战性的零样本检测任务中,Aff3DFunc的 mIoU达到了0.2942,相比之前的最佳方法提升了超过7个百分点。更令人兴奋的是,在真实的机器人操作验证中,Aff3DFunc能够准确引导机械臂抓住刀柄和耳机头梁等正确的功能区域,而对比方法则出现了可能导致危险的错误。这标志着AI在与物理世界交互的安全性与实用性上迈出了坚实的一步。
最佳学生论文奖:EvoAgent,为具身智能体安上“左右脑”
如果说Aff3DFunc教会了AI如何“理解”物体的用途,那么另一项荣获 ACM MM 2025 最佳学生论文奖 的工作则探索了如何让AI拥有像人一样的“思维”来规划和行动。
这项由中国科学院自动化研究所、联想集团等机构共同完成的研究,从人脑的结构中获得灵感,提出了一个全新的具身智能体构建范式——EvoAgent。
论文标题: Building Embodied EvoAgent : A Brain-inspired Paradigm for Bridging Multimodal Large Models and World Models
作者机构: 中国科学院, 中国科学院大学, 联想集团, 深圳鹏城实验室
研究者模仿人脑左右半球的协同工作机制,创新性地提出了 BEEA (脑启发具身进化智能体) 框架:
左半球 (EC-MLLM): 使用一个“具身情境增强的多模态大模型”,负责处理语言和视觉输入,理解任务指令,如同大脑的语言和逻辑中枢。
右半球 (PC-WM): 使用一个“感知情境引导的世界模型”,负责对环境动态进行建模和预测,模拟大脑的空间感知和“脑补”能力。
胼胝体 (DCS): 设计了一个“动态通信插槽”,通过双向消息传递连接“左右脑”,并支持在线的自进化,让智能体在交互中动态调整、快速适应。
这个“双脑协同”的智能体在多个具身智能任务上取得了显著成功。在REVERIE和SOON等经典导航任务上,它将基线模型的成功率(SPL)分别从31.01提升至 37.28 和从26.19提升至 30.97。更重要的是,它在从未见过的“域外”任务上也表现出强大的零样本泛化能力。这种“左脑理解、右脑脑补”的仿生设计,为通往更通用、更具适应性的具身智能体开辟了一条极具启发性的新路径。
最佳开源软件奖:看网课神器,让视频学习进入“互动时代”
项目名称: Video Lecture Analysis Toolkit
参考论文: Video Lecture Analysis Toolkit: An Open-Source Framework for Interactive Learning
作者机构: 法国图卢兹计算机科学研究所 (IRIT), 新加坡国立大学
当尖端AI正在深入物理世界的同时,多媒体技术也在重塑我们与数字内容的交互方式。面对动辄一两个小时的网课视频,想找一个知识点却只能靠拖动进度条反复“考古”?今年的 ACM MM 2025 最佳开源软件奖 就为我们带来了一款颠覆传统在线学习体验的“看网课神器”。
由法国图卢兹计算机科学研究所和新加坡国立大学联合开发的 “视频讲座分析工具包”,旨在将线性的、被动的视频观看,转变为非线性的、主动的知识探索。
这款完全开源的工具提供了一个强大的仪表盘界面,其背后是一整套智能分析流程:
内容自动结构化: 利用Whisper模型生成高精度字幕,通过OCR技术提取PPT上的所有文字,再借助大语言模型(如Gemini)自动划分章节并生成摘要。
前所未有的“交互层”: 这是该工具最大的创新。激活后,用户就获得了对视频画面的“上帝模式”。可以随意拖动、缩放甚至“P掉”演讲者窗口;点击讲稿中的一句话,视频会自动跳转到对应时间点,PPT上的相关内容也会高亮显示。反之亦然。
这个工具不仅是学生的复习利器,也是研究者的实验平台。它将原本固化的视频信息流彻底“打碎”并重组为可交互、可检索的知识库,预示着下一代在线学习工具的到来。
结语
从理解物体功能、模拟人类思维,到革新知识获取方式,ACM Multimedia 2025的获奖作品共同揭示了多媒体技术的核心趋势:构建更智能、更具交互性的桥梁,连接数字世界与物理现实,连接信息与人类认知。这些前沿探索不仅在学术上取得了突破,更预示着一个AI与人类生活无缝融合的未来正在加速到来。
ACM MM 2025 目前所有论文均开放下载,感兴趣的朋友可查看: