动态列表

  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控

IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆

CV君 2025-10-11 13:07 江苏

速度与精度兼得,嵌入式平台3D分割迎来新突破。

大家好,我是CV君。今天想和大家聊聊3D激光雷达(LiDAR)语义分割这个领域。对于自动驾驶和移动机器人来说,能实时、准确地理解周围环境至关重要,而LiDAR语义分割就是实现这一目标的关键技术。然而,尤其是在计算资源有限的嵌入式设备上,想要同时做到又快又准,一直是个不小的挑战。

最近,来自法国巴黎萨克雷大学、巴黎文理研究大学机构的研究者们,在即将召开的机器人顶会IROS 2025上,发表了一篇名为《HARP-NeXt》的论文,直面了这个痛点。他们提出了一种新的网络架构,在精度上不输当前顶尖方法,但速度却实现了惊人的提升。

  • 论文标题: HARP-NeXt: High-Speed and Accurate Range-Point Fusion Network for 3D LiDAR Semantic Segmentation

  • 作者: Samir Abou Haidar, Alexandre Chariot, Mehdi Darouich, Cyril Joly, Jean-Emmanuel Deschaud

  • 机构: 巴黎萨克雷大学、巴黎文理研究大学

  • 录用会议: IROS 2025 (IEEE/RSJ International Conference on Intelligent Robots and Systems)

  • 论文地址: https://arxiv.org/abs/2510.06876

  • 项目主页: https://github.com/SamirAbouHaidar/HARP-NeXt

挑战与动机

在深入了解HARP-NeXt之前,我们先简单回顾一下现有的技术路线。目前主流的LiDAR语义分割方法大致可以分为几类:

  • 基于点的方法 (Point-based) :直接处理原始点云,能最大程度保留几何信息,精度通常很高。但缺点是计算复杂,尤其是在邻域搜索等操作上非常耗时,难以实时。

  • 基于投影的方法 (Projection-based) :将3D点云投影到2D图像(如距离图)上,然后使用成熟的2D卷积网络处理。这类方法速度快,但投影过程会不可避免地丢失空间几何信息,导致精度下降。

  • 基于稀疏卷积的方法 (Sparse convolution-based) :利用点云的稀疏性,只在有点的区域进行卷积,提高了效率。但在嵌入式平台上,计算开销依然不小。

  • 基于融合的方法 (Fusion-based) :结合不同表示(如点、体素、2D图像)的优势,试图兼顾精度和速度,但往往设计复杂,难以在移动端高效部署。

此外,很多方法为了刷高榜单分数,还依赖于测试时数据增强(TTA)或模型集成,这进一步拖慢了推理速度。而且,一个常被忽视的环节是预处理,它在CPU上进行,有时甚至比模型推理本身更耗时。

正是在这样的背景下,研究者们提出了HARP-NeXt,旨在打破“高精度”与“高速度”之间的壁垒,设计一个真正适合在嵌入式设备上实时运行的分割网络。

HARP-NeXt的核心方法

HARP-NeXt的整体架构清晰明了,由特征编码器、一个多尺度的融合主干网络和一个融合头组成。其核心亮点可以概括为三个方面:高效的预处理、全新的特征提取模块,以及巧妙的多尺度融合策略。

高效的GPU预处理

传统工作流中,从加载原始点云数据到准备好网络输入,整个预处理过程几乎完全在CPU上完成,然后才将数据传输到GPU进行推理。这不仅给CPU带来了沉重负担,也造成了数据传输瓶颈。

HARP-NeXt提出了一种新颖的预处理流程,它将原始数据尽早地移动到GPU,并利用GPU强大的并行计算能力来加速数据准备过程。如下图所示,这种方法显著减少了CPU的负载和数据传输的延迟,为实现真正的实时处理铺平了道路。

轻巧而强大的Conv-SE-NeXt模块

为了在不牺牲性能的前提下提升效率,作者设计了一个名为 Conv-SE-NeXt 的全新特征提取模块。这个模块的设计灵感来源于经典的ResNet、ConvNeXt和SE-ResNet,但目标更加极致:在每个网络阶段只使用单个模块,就能高效地提取特征,避免了传统网络中常见的模块堆叠。

它主要结合了:

  • 深度可分离卷积:将标准卷积分解为深度卷积和逐点卷积,大幅减少了参数量和计算量。

  • Squeeze-and-Excitation (SE)机制:通过学习通道之间的依赖关系,让网络能够自适应地增强信息量大的特征通道,抑制无用的通道。

  • 现代网络设计:借鉴了ConvNeXt等现代CNN的设计思想,并选择了计算更高效的Hardswish和Hardsigmoid激活函数。

这个轻量级的设计使得HARP-NeXt在保持高精度的同时,计算成本远低于传统模块。

多尺度Range-Point融合主干

HARP-NeXt最核心的创新在于其主干网络,它巧妙地融合了2D距离图(Range View)和3D点云(Point View)两种表示的特征。

网络在多个尺度(或者说抽象层次)上并行处理这两种特征。在每个尺度,它不仅使用Conv-SE-NeXt模块提取2D特征,还会通过高效的映射函数(Pt2Px和Px2Pt),在2D像素特征和3D点特征之间进行信息交换和融合。这种设计使得网络能够同时利用2D视图的上下文信息和3D视图的精确几何细节,从而在不同层次上逐步优化特征表示,无论是精细的局部细节还是广阔的全局语境都能很好地捕捉。

实验效果:速度与精度的双重胜利

是骡子是马,拉出来遛遛。HARP-NeXt在两大主流基准数据集nuScenes和SemanticKITTI上进行了全面评估,并与当前最先进的方法进行了比较。

结果非常亮眼。下面的图表直观地展示了在nuScenes验证集上,不同方法在mIoU(平均交并比,衡量精度的指标)和运行时间上的权衡。可以看到,HARP-NeXt(橙色五角星)在保持极高精度的同时,速度优势巨大,远远领先于其他方法,尤其是在嵌入式平台Jetson AGX Orin上,成功地进入了“实时处理”区域。

定量结果

下表提供了更详细的量化数据。在nuScenes数据集上,HARP-NeXt的mIoU达到了77.1%,仅次于当前排名第一的PTv3(78.4%),但优于所有其他的融合方法、投影方法和稀疏卷积方法。而在速度上,其在RTX 4090上的总运行时间仅为10ms,与PTv3的241ms相比,实现了惊人的24倍速度提升!并且这一切都是在不使用任何测试时增强(TTA)技巧的情况下实现的。

在类别IoU的对比中,HARP-NeXt在6个类别中排名第一,4个类别中排名第二,展示了其在各种场景下的强大泛化能力。

定性结果

从定性结果来看,HARP-NeXt的分割结果(下图c)与真值(下图d)非常接近,错误分类(红色点)明显少于其他高效方法如SalsaNext和FRNet。

消融实验

此外,消融实验也充分证明了HARP-NeXt中每个设计模块的有效性。例如,与ResNet、ConvNeXt等其他构建块相比,本文提出的Conv-SE-NeXt在精度和效率上都取得了最佳平衡。

总结

CV君认为,HARP-NeXt的成功之处在于它没有盲目堆叠复杂的模块,而是从系统设计的角度出发,对预处理、特征提取和特征融合的每一个环节都进行了精心的优化和权衡。这种兼顾全局与细节、速度与精度的设计哲学,对于资源受限场景下的感知任务具有非常重要的借鉴意义。

你觉得这种在速度和精度之间寻求极致平衡的思路,未来还会应用在哪些领域?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们