ToolsAi

CV君 2025-10-11 13:07 江苏

速度与精度兼得，嵌入式平台3D分割迎来新突破。

大家好，我是CV君。今天想和大家聊聊3D激光雷达（LiDAR）语义分割这个领域。对于自动驾驶和移动机器人来说，能实时、准确地理解周围环境至关重要，而LiDAR语义分割就是实现这一目标的关键技术。然而，尤其是在计算资源有限的嵌入式设备上，想要同时做到又快又准，一直是个不小的挑战。

最近，来自法国巴黎萨克雷大学、巴黎文理研究大学机构的研究者们，在即将召开的机器人顶会IROS 2025上，发表了一篇名为《HARP-NeXt》的论文，直面了这个痛点。他们提出了一种新的网络架构，在精度上不输当前顶尖方法，但速度却实现了惊人的提升。

论文标题: HARP-NeXt: High-Speed and Accurate Range-Point Fusion Network for 3D LiDAR Semantic Segmentation
作者: Samir Abou Haidar, Alexandre Chariot, Mehdi Darouich, Cyril Joly, Jean-Emmanuel Deschaud
机构: 巴黎萨克雷大学、巴黎文理研究大学
录用会议: IROS 2025 (IEEE/RSJ International Conference on Intelligent Robots and Systems)
论文地址: https://arxiv.org/abs/2510.06876
项目主页: https://github.com/SamirAbouHaidar/HARP-NeXt

挑战与动机

在深入了解HARP-NeXt之前，我们先简单回顾一下现有的技术路线。目前主流的LiDAR语义分割方法大致可以分为几类：

基于点的方法 (Point-based) ：直接处理原始点云，能最大程度保留几何信息，精度通常很高。但缺点是计算复杂，尤其是在邻域搜索等操作上非常耗时，难以实时。
基于投影的方法 (Projection-based) ：将3D点云投影到2D图像（如距离图）上，然后使用成熟的2D卷积网络处理。这类方法速度快，但投影过程会不可避免地丢失空间几何信息，导致精度下降。
基于稀疏卷积的方法 (Sparse convolution-based) ：利用点云的稀疏性，只在有点的区域进行卷积，提高了效率。但在嵌入式平台上，计算开销依然不小。
基于融合的方法 (Fusion-based) ：结合不同表示（如点、体素、2D图像）的优势，试图兼顾精度和速度，但往往设计复杂，难以在移动端高效部署。

此外，很多方法为了刷高榜单分数，还依赖于测试时数据增强（TTA）或模型集成，这进一步拖慢了推理速度。而且，一个常被忽视的环节是预处理，它在CPU上进行，有时甚至比模型推理本身更耗时。

正是在这样的背景下，研究者们提出了HARP-NeXt，旨在打破“高精度”与“高速度”之间的壁垒，设计一个真正适合在嵌入式设备上实时运行的分割网络。

HARP-NeXt的核心方法

HARP-NeXt的整体架构清晰明了，由特征编码器、一个多尺度的融合主干网络和一个融合头组成。其核心亮点可以概括为三个方面：高效的预处理、全新的特征提取模块，以及巧妙的多尺度融合策略。

高效的GPU预处理

传统工作流中，从加载原始点云数据到准备好网络输入，整个预处理过程几乎完全在CPU上完成，然后才将数据传输到GPU进行推理。这不仅给CPU带来了沉重负担，也造成了数据传输瓶颈。

HARP-NeXt提出了一种新颖的预处理流程，它将原始数据尽早地移动到GPU，并利用GPU强大的并行计算能力来加速数据准备过程。如下图所示，这种方法显著减少了CPU的负载和数据传输的延迟，为实现真正的实时处理铺平了道路。

轻巧而强大的Conv-SE-NeXt模块

为了在不牺牲性能的前提下提升效率，作者设计了一个名为 Conv-SE-NeXt 的全新特征提取模块。这个模块的设计灵感来源于经典的ResNet、ConvNeXt和SE-ResNet，但目标更加极致：在每个网络阶段只使用单个模块，就能高效地提取特征，避免了传统网络中常见的模块堆叠。

它主要结合了：

深度可分离卷积：将标准卷积分解为深度卷积和逐点卷积，大幅减少了参数量和计算量。
Squeeze-and-Excitation (SE)机制：通过学习通道之间的依赖关系，让网络能够自适应地增强信息量大的特征通道，抑制无用的通道。
现代网络设计：借鉴了ConvNeXt等现代CNN的设计思想，并选择了计算更高效的Hardswish和Hardsigmoid激活函数。

这个轻量级的设计使得HARP-NeXt在保持高精度的同时，计算成本远低于传统模块。

多尺度Range-Point融合主干

HARP-NeXt最核心的创新在于其主干网络，它巧妙地融合了2D距离图（Range View）和3D点云（Point View）两种表示的特征。

网络在多个尺度（或者说抽象层次）上并行处理这两种特征。在每个尺度，它不仅使用Conv-SE-NeXt模块提取2D特征，还会通过高效的映射函数（Pt2Px和Px2Pt），在2D像素特征和3D点特征之间进行信息交换和融合。这种设计使得网络能够同时利用2D视图的上下文信息和3D视图的精确几何细节，从而在不同层次上逐步优化特征表示，无论是精细的局部细节还是广阔的全局语境都能很好地捕捉。

实验效果：速度与精度的双重胜利

是骡子是马，拉出来遛遛。HARP-NeXt在两大主流基准数据集nuScenes和SemanticKITTI上进行了全面评估，并与当前最先进的方法进行了比较。

结果非常亮眼。下面的图表直观地展示了在nuScenes验证集上，不同方法在mIoU（平均交并比，衡量精度的指标）和运行时间上的权衡。可以看到，HARP-NeXt（橙色五角星）在保持极高精度的同时，速度优势巨大，远远领先于其他方法，尤其是在嵌入式平台Jetson AGX Orin上，成功地进入了“实时处理”区域。

定量结果

下表提供了更详细的量化数据。在nuScenes数据集上，HARP-NeXt的mIoU达到了77.1%，仅次于当前排名第一的PTv3（78.4%），但优于所有其他的融合方法、投影方法和稀疏卷积方法。而在速度上，其在RTX 4090上的总运行时间仅为10ms，与PTv3的241ms相比，实现了惊人的24倍速度提升！并且这一切都是在不使用任何测试时增强（TTA）技巧的情况下实现的。