原创 让你更懂AI的 2025-09-08 13:32 北京
雨夜雾天也不怕!
还认为 Focal Loss 只能在有监督场景使用?还在为 3D 检测模型在分布外泛化的不稳定性焦虑?
来自北京大学,香港中文大学和鹏城实验室的最新研究提出了 DUO 框架(Dual Uncertainty Optimization),首次将语义不确定性与几何不确定性融合建模,让检测模型在雨夜、雾天也能“看得更稳、更准”。
前言:为什么检测模型在分布外场景泛化能力很差?
当训练好的 3D 检测模型被直接拿到雨夜、雾天、传感器抖动等分布外场景中时,性能往往会显著下降。这背后隐藏的关键原因,是双重不确定性(Dual Uncertainty)的累积效应。
然而在单目 3D 检测场景中,常见的不确定性优化策略暴露出两个严重问题:
语义不确定性: 模型在分类时的犹豫和模糊。当遇到复杂光照或恶劣天气时,模型对物体类别的概率分布会变得分散,高分样本更容易被强化,而低分样本(通常是小目标或被遮挡的物体)几乎得不到优化,导致漏检率显著升高。
几何不确定性: 模型在空间定位中的不稳定性。3D 检测往往依赖深度估计器来预测目标位置,但在分布外场景中,直接最小化深度不确定性会导致多头估计器“塌缩”为单一预测器,失去冗余性和鲁棒性,进而空间理解能力下降。
这种双重不确定性叠加会加剧检测模型在分布外场景下的性能崩溃。因此,我们迫切需要一种能够同时建模并优化语义与几何不确定性的新范式,以真正提升检测模型的泛化能力。
论文标题:
Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object
Detection under Test-Time Shifts
论文作者:
Zixuan Hu, Dongxiao Li, Xinzhu Ma, Shixiang Tang, Xiaotong Li,
Wenhan Yang, Ling-Yu Duan
所属机构:
School of Computer Science, Peking University, Peng Cheng Laboratory, The Chinese University of Hong Kong
收录会议:
ICCV 2025(Highlight)
开源地址:
论文链接:
https://arxiv.org/abs/2508.20488
联系方式:
hzxuan@pku.edu.cn
DUO框架:双重不确定性的协同优化
DUO 框架创新性地提出一个观点:模型的分布外泛化需要同时建模并优化语义和几何的不确定性,并通过相辅相成的机制来优化。其包含两个核心设计:
2.1 语义侧:Unsupervised Focal Loss,无监督版本的TA来了
传统 Focal Loss 可以平衡样本难易度,但依赖真实标签,无法在测试时无监督场景中使用。DUO 基于凸优化的 Legendre–Fenchel 对偶理论,首次把 Focal Loss 改写为一个无标签的对偶优化问题。
通过高阶近似,推导出新的损失:
这里,不同类别的权重会随预测概率自动调整,超参数 直接沿用训练阶段的设置,无需额外调参。
为什么 CFL 这么牛?
动态调整,更聪明:传统 Focal Loss 只关注真实类别,而 CFL 不仅保留 的平衡机制,还通过矩阵项捕捉类别间预测关系,实现全局动态加权。
无需真实标签,随时适应:CFL 只依赖预测概率,即便没有标注数据,也能在测试阶段正常工作。
超参数零负担:训练阶段的 可直接用到测试阶段,无需调参,实测效果也得到了验证。
2.2 几何侧:语义引导的法向场一致性约束
DUO 并不直接最小化几何不确定性,而是通过法向一致性来约束几何稳定性。给定深度图 ,通过 Sobel 算子计算梯度,再推导像素法向:
在约束相邻像素法向时保持一致性,同时引入边缘感知项,也保留边界的不连续性信息:
根据 CFL 损失,只在语义不确定性较低的区域施加几何约束,避免噪声传播。由此,几何估计既保证了平滑稳定,又避免了塌缩。
最终,DUO 的联合优化目标为:
其中 是语义引导掩码。在保证语义掩码更可靠的同时,也提高了几何约束的可信度。
实验结果:语义×几何,不确定性的正反馈效应
在 M3OD 最常用的 KITTI 和 nuScenes 数据集上进行评测,DUO 在分布外场景下显著优于现有 Test-Time Adaptation 方法。无论是昼夜切换、雨雾天气,还是跨域测试,DUO 都展现出更加稳定的适配能力。
进一步地,我们对语义侧和几何侧的优化效果进行了单独消融实验:
当仅使用语义不确定性优化时,分类性能得到提升,同时也间接降低了空间估计的不稳定性;
当仅使用几何不确定性优化时,模型在空间理解上更为稳健,也反过来减少了语义预测的模糊与混淆;
这说明语义与几何优化并非独立,而是形成了一种 相互促进、相互约束的正反馈机制。
最终的可视化结果也清晰展示了 DUO 的优势:在复杂光照、传感器噪声等极端环境下,模型不仅能够更精准地识别远距离和小目标,还能保持对三维空间结构的稳定理解,显著提升了整体的鲁棒感知能力。
结语:从无监督Focal Loss到鲁棒3D感知新范式
一方面,双重不确定性优化为未来 3D 感知与自动驾驶等关键应用提供了新的思路。通过同时建模语义与几何两类核心不确定性,DUO 在分布外场景中展现出强大的适应性和鲁棒性。
另一方面,无监督 Focal Loss 打破了经典损失函数对标签的依赖,在测试阶段模型适配中展现出显著增益,同时保持与有监督训练一致的超参数设置,避免了额外调优成本。
当前,DUO 已在单目三维检测的多个高强度 OOD 基准上展现了显著优势。但这仅仅是一个开始:
1. 在 其他感知任务(如三维目标分割、点云检测等)中,双重不确定性同样扮演着关键角色;
2. 在 现实复杂场景(如自动驾驶的长尾案例、工业生产中的复杂光照条件)中,数据稀缺与分布偏移问题尤为突出,DUO 的无监督适配潜力亟待释放;
3. 在 更大规模、更高复杂度的模型体系中,无监督 Focal Loss 以其简单的使用条件(无需标签、与有监督 loss 兼容)展现出极强的可扩展性。
研究团队也将持续开源并完善相关工具链,期待更多研究者与工程团队将该方法推广至多模态融合、点云感知,以及更大规模的复杂场景,共同推动 鲁棒智能感知系统的真正落地。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·