CV君 2025-11-07 21:32 江苏
轻量、快速、边界清晰,嵌入式深度估计新标杆!
单目深度估计是无人系统实现3D感知的关键,成本低廉但效果常常不尽人意,尤其是在算力有限的嵌入式设备上,生成的深度图往往模糊不清,物体边缘细节丢失严重。
来自北京理工大学的研究团队针对这一痛点,提出了一种新颖的自监督单目深度估计模型——BoRe-Depth。这个模型名字是 Boundary Refinement for Depth Estimation 的缩写,意在强调其核心优势:边界优化。BoRe-Depth不仅模型轻巧,参数量仅为 8.7M,还能在NVIDIA Jetson Orin这样的嵌入式平台上跑到 50.7 FPS 的高帧率,同时显著提升了深度图的边界质量。
论文标题: BoRe-Depth: Self-supervised Monocular Depth Estimation with Boundary Refinement for Embedded Systems
作者: Chang Liu, Juan Li, Sheng Zhang, Chang Liu, Jie Li, Xu Zhang
机构: 北京理工大学
录用会议: IROS 2025
研究背景
在自动驾驶、无人机导航和增强现实等领域,准确感知周围环境的3D结构至关重要。单目深度估计技术仅需单个摄像头就能预测像素级的深度信息,因其低成本和部署灵活性而备受关注。然而,现有方法在追求轻量化和高效率的同时,往往以牺牲深度图的细节为代价,导致物体边缘模糊,甚至出现物体形状扭曲或破碎,这在实际应用中是难以接受的。
目前自监督方法主要依赖视图重建和几何一致性损失进行训练,但由于边界区域在整个图像中占比较小,导致模型对边界的关注不足。虽然有一些工作尝试解决边界模糊问题,但它们通常模型参数量大,难以在嵌入式设备上实现实时计算。因此,如何在保证实时性能和轻量化的前提下,有效优化边界细节,是当前亟待解决的难题。
BoRe-Depth模型方法
为了在边界精细度和实时性之间取得更好的平衡,作者提出了BoRe-Depth。其整体框架如下图所示,采用自监督学习范式,主要由DepthNet(深度网络)、PoseNet(位姿网络)和一个创新的两阶段训练策略构成。
模型的核心创新在于DepthNet的设计以及独特的训练策略。
增强特征自适应融合模块 (EFAF)
作者发现,现有的轻量化模型为了效率,解码器中的上采样操作过于简单,未能充分利用编码器提取的多尺度特征。为此,他们设计了 增强特征自适应融合模块(Enhanced Feature Adaptive Fusion Module, EFAF)。
如上图所示,EFAF解码器在融合来自编码器的不同层级特征时,会通过一个 空间通道增强块 (Spatial Channel Enhancement Block, SCE) 对相邻层级的特征进行增强。SCE通过深度可分离卷积等轻量化操作,在扩展特征维度的同时,自适应地整合多层次特征,从而在全局范围内增强边界细节的表达能力,让解码器能更准确地捕捉复杂场景下的空间结构和深度变化。
结合语义信息的两阶段训练策略
为了进一步提升边界质量,作者设计了一个巧妙的两阶段训练策略。
第一阶段: 模型像传统的自监督方法一样进行训练,使用视图重建损失、几何一致性损失以及一个基于伪标签的边界对齐损失,得到一个初步的粗略模型。这里的伪标签由一个更强大的大模型生成,其边界比真值标签更清晰,为模型提供了良好的边界参考。
第二阶段: 在模型具备初步的深度估计能力后,引入 语义信息损失 (Semantic Information Loss)。具体来说,作者使用一个在语义分割任务上预训练并冻结的MPViT编码器作为“教师”,引导DepthNet的编码器(“学生”)学习语义知识。通过计算两个编码器在像素级特征上的相似性,促使深度估计编码器关注到场景中的物体及其边界,从而显著优化细节。
这种渐进式的优化策略,避免了在训练初期就引入语义信息可能导致的干扰,让模型在已经理解场景几何结构的基础上,再学习语义信息来精修边界,取得了1+1>2的效果。
实验结果与分析
作者在室内静态场景数据集NYUv2、室外动态场景数据集KITTI以及泛化能力测试数据集IBims-1上对BoRe-Depth进行了全面评估。
定量结果
如下表所示,无论是在NYUv2还是KITTI数据集上,BoRe-Depth在拥有最少参数量(8.7M)的情况下,多项关键指标均达到了SOTA水平,尤其是在专门评估边界质量的指标上,取得了最佳表现。这证明了模型在轻量化的同时,确实有效提升了边界清晰度。
在iBims-1数据集上的零样本泛化测试结果也表明,BoRe-Depth具有出色的场景迁移能力,性能全面领先于其他轻量化模型。
定性结果
从下面的室内和室外场景可视化对比可以看出,相较于其他模型产生的模糊、扭曲的深度图,BoRe-Depth预测的深度图轮廓最清晰、细节最准确,无论是室内的家具边缘,还是室外的车辆轮廓,都得到了很好的还原。
室内场景对比
室外场景对比
消融实验
作者还通过消融实验验证了EFAF模块和两阶段训练策略的有效性。结果表明,EFAF中的每个SCE分支都对提升边界质量有积极作用;而在第二阶段引入语义损失的策略,相比于其他方式(如联合训练语义分割解码器或在第一阶段就引入语义损失),取得了最好的性能。这充分证明了BoRe-Depth设计的合理性和创新性。
EFAF模块消融研究
语义信息损失策略消融研究
总结
CV君认为,BoRe-Depth为嵌入式设备上的实时高精度深度估计提供了一个非常出色的解决方案。它巧妙地通过轻量化的EFAF模块和渐进式的语义信息融合策略,在模型参数、运行速度和边界质量之间实现了极佳的平衡。
目前代码已经开源,对于从事自动驾驶、机器人导航等相关领域研究的同学来说,这无疑是一个值得跟进和借鉴的优秀工作。
大家对这个方法怎么看?欢迎在评论区留下你的看法!