CV君 2025-09-20 11:02 江苏
几何感知UDA,攻克BEV感知跨域难题
在自动驾驶技术中,以视觉为中心的鸟瞰图(Bird's Eye View, BEV)感知方案正变得越来越重要。然而,现有BEV模型的一个致命弱点是“水土不服”:在一个地方(如晴天的波士顿)训练好的模型,换到另一个地方(如雨天的北京)或不同条件下(如夜晚),性能就会急剧下降。这一“域偏移”(Domain Shift)问题,极大地阻碍了BEV感知技术的实际落地。
为了解决这一难题,来自北京大学、南京大学、香港理工大学和香港科技大学的研究者们,在一篇被 IEEE TCSVT 接收的论文 《BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection》 中,首次 系统性地研究并提出了解决方案。他们提出的 BEVUDA++ 框架,是一个创新的几何感知无监督域自适应(Unsupervised Domain Adaptation, UDA)方法,在多个跨域场景下取得了SOTA性能,例如在“白天到黑夜”的场景切换中,将关键指标 NDS提升了12.9% 。
论文标题:BEVUDA++: Geometric-aware Unsupervised Domain Adaptation for Multi-View 3D Object Detection
作者团队:Rongyu Zhang, Jiaming Liu, Xiaoqi Li, Xiaowei Chi, Dan Wang, Li Du, Yuan Du, Shanghang Zhang
机构:北京大学, 南京大学, 香港理工大学, 香港科技大学
期刊:Accepted by IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)
背景:BEV感知中的“累积域偏移”挑战
BEV感知模型通常很复杂,它需要将来自多个摄像头的2D图像特征,通过视角转换(LSS)提升到3D空间(Voxel),最后再投影到统一的BEV网格上。问题在于,域偏移(如光照、天气、城市场景风格的变化)会影响到这个流程的每一步:
2D图像空间:图像的风格、光照发生变化。
3D体素空间:由2D特征和不可靠的深度预测构建的3D Voxel特征,会继承并放大2D空间的域偏移。
BEV空间:最终的BEV特征会“累积”前面所有空间的域偏移,导致最终的3D目标检测性能严重下降。
BEVUDA++ 的核心目标就是解决这种在多几何空间中累积的域偏移问题。
BEVUDA++:几何感知的师生学习框架
BEVUDA++ 采用了一个巧妙的“师生(Teacher-Student)”学习框架,来实现在没有目标域标注数据下的无监督域自适应。该框架由一个“可靠深度教师”模型和一个“几何一致学生”模型组成。
1. 可靠深度教师 (Reliable Depth Teacher, RDT)
教师模型(RDT)的作用是在目标域(如夜晚场景)上为学生模型提供高质量的监督信号(伪标签)。为了保证信号的质量,RDT巧妙地融合了目标域稀疏但准确的LiDAR点云和模型自身预测的稠密深度图。它通过一个 不确定性估计 机制,来判断模型预测的每个像素点的深度是否“可靠”。对于不可靠的深度预测,就用LiDAR的真实深度来替代。这样生成的“深度感知信息”包含了充足且可靠的目标域知识,能够指导学生模型学习到更鲁棒的Voxel和BEV特征。
2. 几何一致学生 (Geometric Consistent Student, GCS)
学生模型(GCS)是最终在实际应用中进行推理的模型。它的核心创新在于“几何一致性”。为了协同地解决多空间中的域偏移,GCS将来自2D图像、3D Voxel和BEV这三个不同几何空间的特征,通过MLP映射到一个 统一的几何嵌入空间。在这个共享空间里,通过对抗性训练等方式,强制拉近源域和目标域的特征分布。这种方法从根本上解决了域偏移在不同空间中累积的问题。
3. 不确定性引导的EMA (Uncertainty-guided EMA, UEMA)
在师生学习框架中,教师模型通常通过指数移动平均(EMA)的方式来缓慢地更新学生模型的权重。传统的EMA使用固定的更新率。而 BEVUDA++ 提出了一种更智能的 UEMA 策略。它利用之前计算出的“不确定性”来动态调整更新率:当学生模型对自己的预测不确定时(即不确定性高),就减小教师模型的更新幅度,防止教师学到学生的错误;反之,则可以更自信地更新。这大大提升了伪标签的质量和训练的稳定性。
实验结果:全场景、全天候的SOTA性能
研究团队在nuScenes数据集上构建了四种典型的跨域场景(城市场景:波士顿到新加坡;天气:晴天到雨天/雾天;光照:白天到黑夜;连续变化:晴天到不同浓度的雾天)来验证方法的有效性。
定量分析
实验结果表明,BEVUDA++ 在所有四个跨域场景中,性能均全面超越了基线模型(Source Only)和其他现有的域自适应方法。特别是在最具挑战性的“白天到黑夜”场景中,BEVUDA++ 相比于基线模型,NDS提升了12.9%,mAP提升了9.5% ,效果极为显著。
定性分析
从可视化的检测结果和特征分布中,可以更直观地看到 BEVUDA++ 的优势。如下图所示,BEVUDA++(下图)的检测框比基线模型(上图)更准确、置信度更高。同时,t-SNE特征可视化也表明,BEVUDA++能成功地将源域(蓝色)和目标域(红色)的特征分布对齐,而基线模型则无法做到。
消融实验也充分证明了RDT、GCS和UEMA每个模块都对最终的性能提升至关重要。
总结与贡献
BEVUDA++ 是 首个 系统性解决多视角BEV 3D目标检测中无监督域自适应问题的工作,其主要贡献在于:
识别并解决了多几何空间域偏移累积的核心挑战。
提出了一个创新的几何感知师生框架,其中RDT模块利用不确定性提供高质量的深度感知信息,GCS模块在统一的几何空间中对齐特征分布。
设计了UEMA,一种更智能的教师模型更新策略,有效减少了误差累积。
这项研究极大地提升了BEV感知模型在真实世界复杂多变场景下的鲁棒性和实用性,为自动驾驶技术的最终落地扫清了一大障碍。
了解最新 AI 进展,欢迎关注公众号:我爱计算机视觉感谢点赞支持。