CV君 2025-10-11 13:07 江苏
速度与精度兼得,嵌入式平台3D分割迎来新突破。
大家好,我是CV君。今天想和大家聊聊3D激光雷达(LiDAR)语义分割这个领域。对于自动驾驶和移动机器人来说,能实时、准确地理解周围环境至关重要,而LiDAR语义分割就是实现这一目标的关键技术。然而,尤其是在计算资源有限的嵌入式设备上,想要同时做到又快又准,一直是个不小的挑战。
最近,来自法国巴黎萨克雷大学、巴黎文理研究大学机构的研究者们,在即将召开的机器人顶会IROS 2025上,发表了一篇名为《HARP-NeXt》的论文,直面了这个痛点。他们提出了一种新的网络架构,在精度上不输当前顶尖方法,但速度却实现了惊人的提升。
论文标题: HARP-NeXt: High-Speed and Accurate Range-Point Fusion Network for 3D LiDAR Semantic Segmentation
作者: Samir Abou Haidar, Alexandre Chariot, Mehdi Darouich, Cyril Joly, Jean-Emmanuel Deschaud
机构: 巴黎萨克雷大学、巴黎文理研究大学
录用会议: IROS 2025 (IEEE/RSJ International Conference on Intelligent Robots and Systems)
挑战与动机
在深入了解HARP-NeXt之前,我们先简单回顾一下现有的技术路线。目前主流的LiDAR语义分割方法大致可以分为几类:
基于点的方法 (Point-based) :直接处理原始点云,能最大程度保留几何信息,精度通常很高。但缺点是计算复杂,尤其是在邻域搜索等操作上非常耗时,难以实时。
基于投影的方法 (Projection-based) :将3D点云投影到2D图像(如距离图)上,然后使用成熟的2D卷积网络处理。这类方法速度快,但投影过程会不可避免地丢失空间几何信息,导致精度下降。
基于稀疏卷积的方法 (Sparse convolution-based) :利用点云的稀疏性,只在有点的区域进行卷积,提高了效率。但在嵌入式平台上,计算开销依然不小。
基于融合的方法 (Fusion-based) :结合不同表示(如点、体素、2D图像)的优势,试图兼顾精度和速度,但往往设计复杂,难以在移动端高效部署。
此外,很多方法为了刷高榜单分数,还依赖于测试时数据增强(TTA)或模型集成,这进一步拖慢了推理速度。而且,一个常被忽视的环节是预处理,它在CPU上进行,有时甚至比模型推理本身更耗时。
正是在这样的背景下,研究者们提出了HARP-NeXt,旨在打破“高精度”与“高速度”之间的壁垒,设计一个真正适合在嵌入式设备上实时运行的分割网络。
HARP-NeXt的核心方法
HARP-NeXt的整体架构清晰明了,由特征编码器、一个多尺度的融合主干网络和一个融合头组成。其核心亮点可以概括为三个方面:高效的预处理、全新的特征提取模块,以及巧妙的多尺度融合策略。
高效的GPU预处理
传统工作流中,从加载原始点云数据到准备好网络输入,整个预处理过程几乎完全在CPU上完成,然后才将数据传输到GPU进行推理。这不仅给CPU带来了沉重负担,也造成了数据传输瓶颈。
HARP-NeXt提出了一种新颖的预处理流程,它将原始数据尽早地移动到GPU,并利用GPU强大的并行计算能力来加速数据准备过程。如下图所示,这种方法显著减少了CPU的负载和数据传输的延迟,为实现真正的实时处理铺平了道路。
轻巧而强大的Conv-SE-NeXt模块
为了在不牺牲性能的前提下提升效率,作者设计了一个名为 Conv-SE-NeXt 的全新特征提取模块。这个模块的设计灵感来源于经典的ResNet、ConvNeXt和SE-ResNet,但目标更加极致:在每个网络阶段只使用单个模块,就能高效地提取特征,避免了传统网络中常见的模块堆叠。
它主要结合了:
深度可分离卷积:将标准卷积分解为深度卷积和逐点卷积,大幅减少了参数量和计算量。
Squeeze-and-Excitation (SE)机制:通过学习通道之间的依赖关系,让网络能够自适应地增强信息量大的特征通道,抑制无用的通道。
现代网络设计:借鉴了ConvNeXt等现代CNN的设计思想,并选择了计算更高效的Hardswish和Hardsigmoid激活函数。
这个轻量级的设计使得HARP-NeXt在保持高精度的同时,计算成本远低于传统模块。
多尺度Range-Point融合主干
HARP-NeXt最核心的创新在于其主干网络,它巧妙地融合了2D距离图(Range View)和3D点云(Point View)两种表示的特征。
网络在多个尺度(或者说抽象层次)上并行处理这两种特征。在每个尺度,它不仅使用Conv-SE-NeXt模块提取2D特征,还会通过高效的映射函数(Pt2Px和Px2Pt),在2D像素特征和3D点特征之间进行信息交换和融合。这种设计使得网络能够同时利用2D视图的上下文信息和3D视图的精确几何细节,从而在不同层次上逐步优化特征表示,无论是精细的局部细节还是广阔的全局语境都能很好地捕捉。
实验效果:速度与精度的双重胜利
是骡子是马,拉出来遛遛。HARP-NeXt在两大主流基准数据集nuScenes和SemanticKITTI上进行了全面评估,并与当前最先进的方法进行了比较。
结果非常亮眼。下面的图表直观地展示了在nuScenes验证集上,不同方法在mIoU(平均交并比,衡量精度的指标)和运行时间上的权衡。可以看到,HARP-NeXt(橙色五角星)在保持极高精度的同时,速度优势巨大,远远领先于其他方法,尤其是在嵌入式平台Jetson AGX Orin上,成功地进入了“实时处理”区域。
定量结果
下表提供了更详细的量化数据。在nuScenes数据集上,HARP-NeXt的mIoU达到了77.1%,仅次于当前排名第一的PTv3(78.4%),但优于所有其他的融合方法、投影方法和稀疏卷积方法。而在速度上,其在RTX 4090上的总运行时间仅为10ms,与PTv3的241ms相比,实现了惊人的24倍速度提升!并且这一切都是在不使用任何测试时增强(TTA)技巧的情况下实现的。
在类别IoU的对比中,HARP-NeXt在6个类别中排名第一,4个类别中排名第二,展示了其在各种场景下的强大泛化能力。
定性结果
从定性结果来看,HARP-NeXt的分割结果(下图c)与真值(下图d)非常接近,错误分类(红色点)明显少于其他高效方法如SalsaNext和FRNet。
消融实验
此外,消融实验也充分证明了HARP-NeXt中每个设计模块的有效性。例如,与ResNet、ConvNeXt等其他构建块相比,本文提出的Conv-SE-NeXt在精度和效率上都取得了最佳平衡。
总结
CV君认为,HARP-NeXt的成功之处在于它没有盲目堆叠复杂的模块,而是从系统设计的角度出发,对预处理、特征提取和特征融合的每一个环节都进行了精心的优化和权衡。这种兼顾全局与细节、速度与精度的设计哲学,对于资源受限场景下的感知任务具有非常重要的借鉴意义。
你觉得这种在速度和精度之间寻求极致平衡的思路,未来还会应用在哪些领域?欢迎在评论区留下你的看法!