CV君 2025-09-28 12:12 江苏
AI看的视频怎么压?谁家技术强?这个开源平台给你一把标尺。
大家好!如今,从自动驾驶到安防监控,AI摄像头无处不在。一个随之而来的问题是:海量的视频数据,如果都原封不动地传到云端分析,带宽和成本谁顶得住?于是,一个新领域应运而生——面向机器的视频压缩(Video Coding for Machines, VCM)。
它的核心思想很简单:压缩视频,不再是为了给人眼看,而是为了给AI模型“看”。只要AI能看懂,任务能完成,画质差点没关系。但问题来了,A家的压缩算法说自己好,B家的也说自己牛,到底谁更胜一筹?由于大家用的AI模型、数据集、评测标准五花八门,整个领域就像一个“武林大会”,各派打法不一,没法公平比武。
为了解决这个乱局,来自InterDigital、国立韩巴大学(Hanbat National University)和佳能(Canon)的研究者们联手打造并开源了一个通用跑分平台——CompressAI-Vision。
论文标题: CompressAI-Vision: Open-source software to evaluate compression methods for computer vision tasks
作者: Hyomin Choi, Heeji Han, Chris Rosewarne, Fabien Racapé
机构: InterDigital,国立韩巴大学, 佳能
CompressAI-Vision:一个标准的“跑分平台”
简单来说,CompressAI-Vision不是一个新的压缩算法,而是一个统一的、开源的评估框架。它提供了一个公平、可复现的“擂台”,让所有面向机器的压缩算法都能在同一个标准下比试高下。它的价值在于建立秩序和标准,而这对于一个新兴领域至关重要。
更厉害的是,这个平台已经被国际标准组织MPEG采纳,作为其制定新一代“面向机器的特征编码(Feature Coding for Machines, FCM)”标准的官方评估平台。这相当于官方盖章认证,其重要性不言而喻。
平台支持的关键场景
CompressAI-Vision的设计考虑得非常周全,它主要支持两种最主流的“机器视觉”应用场景。
远程推理 (Remote Inference) :这是最常见的场景。终端设备(比如摄像头)将拍摄到的原始图像或视频进行压缩,然后通过网络传输到云端的服务器,由服务器上强大的AI模型进行分析(比如目标检测)。这种方式压缩的是像素数据。
分割推理 (Split Inference) :这是一种更前沿、更高效的场景。终端设备不再是“傻瓜式”地压缩图像,而是会先运行AI模型的前几层,提取出关键的“中间特征(intermediate features)”。然后,它只压缩和传输这些特征(数据量通常比原始图像小得多),云端服务器接收到特征后,再运行模型的剩余部分,完成任务。这种方式压缩的是特征数据,也是FCM标准的核心。
灵活且强大的平台架构
CompressAI-Vision的架构设计得非常灵活和模块化,用户可以通过简单的YAML配置文件,像搭积木一样组合自己的评测流水线。
可插拔的组件:用户可以自由选择和替换评测的各个环节,包括:
数据集:支持多种公开数据集,如COCO, OpenImages, FLIR等。
视觉模型:集成了多种主流的视觉模型,如Faster R-CNN, Mask R-CNN, YOLOX, RTMO等,覆盖目标检测、实例分割、姿态估计等多种任务。
编解码器:不仅支持传统的视频编码标准(如AVC, HEVC, VVC),还支持正在开发中的VCM和FCM的参考软件。
对分割推理的良好支持:平台预先定义了多种模型(如下表所示)的“分割点”,方便研究者测试在网络的不同深度上提取和压缩特征的效果。对于3D的特征张量,平台还提供了默认的“平铺(tiling)”方法,将其转换成2D图像序列,以便送入标准的视频编码器。
平台应用展示:用数据说话
这篇论文的核心不是提出一个新算法并刷榜,而是展示CompressAI-Vision这个平台如何工作,以及它的价值。其中最重要的产出,就是“码率-精度”曲线(Rate-Accuracy Curve)。
上图就是典型的“码率-精度”曲线。横轴是码率(kbps),代表压缩程度;纵轴是任务精度(比如目标跟踪的MOTA或目标检测的mAP)。曲线越靠左上方,说明该压缩方法性能越好,因为它能用更低的码率(更小的文件)达到更高的任务精度。
通过这些曲线,研究者可以一目了然地比较不同算法的优劣。例如,上图就清晰地展示了在特定任务上,FCM和VCM的参考软件相比于传统的远程推理(只压缩像素)有明显的性能优势。
此外,平台还能用于对比不同编码标准(如下表所示),或同一标准下不同内部编码器(如VTM vs. HM)的性能差异,为技术选型和标准制定提供了坚实的数据支持。
总结与展望
CV君认为,CompressAI-Vision的发布,是面向机器的视觉压缩领域一件里程碑式的大事。它就像是为这个新兴领域提供了一套标准的“度量衡”和“工具箱”。它的价值不在于一两个SOTA结果,而在于它为整个社区建立了一个公平竞争和合作创新的基础平台。
随着越来越多的AI应用走向端侧和边缘侧,如何高效地“压缩特征”而非“压缩像素”将变得越来越重要。CompressAI-Vision的出现,无疑将大大加速这一进程。
项目已经完全开源,并且被MPEG采纳,对视频编码和计算机视觉交叉领域感兴趣的同学,这绝对是一个宝藏项目!欢迎大家去GitHub上探索!