动态列表

  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售

IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计

CV君 2025-11-07 21:32 江苏

轻量、快速、边界清晰,嵌入式深度估计新标杆!

单目深度估计是无人系统实现3D感知的关键,成本低廉但效果常常不尽人意,尤其是在算力有限的嵌入式设备上,生成的深度图往往模糊不清,物体边缘细节丢失严重。

来自北京理工大学的研究团队针对这一痛点,提出了一种新颖的自监督单目深度估计模型——BoRe-Depth。这个模型名字是 Boundary Refinement for Depth Estimation 的缩写,意在强调其核心优势:边界优化。BoRe-Depth不仅模型轻巧,参数量仅为 8.7M,还能在NVIDIA Jetson Orin这样的嵌入式平台上跑到 50.7 FPS 的高帧率,同时显著提升了深度图的边界质量。

研究背景

在自动驾驶、无人机导航和增强现实等领域,准确感知周围环境的3D结构至关重要。单目深度估计技术仅需单个摄像头就能预测像素级的深度信息,因其低成本和部署灵活性而备受关注。然而,现有方法在追求轻量化和高效率的同时,往往以牺牲深度图的细节为代价,导致物体边缘模糊,甚至出现物体形状扭曲或破碎,这在实际应用中是难以接受的。

目前自监督方法主要依赖视图重建和几何一致性损失进行训练,但由于边界区域在整个图像中占比较小,导致模型对边界的关注不足。虽然有一些工作尝试解决边界模糊问题,但它们通常模型参数量大,难以在嵌入式设备上实现实时计算。因此,如何在保证实时性能和轻量化的前提下,有效优化边界细节,是当前亟待解决的难题。

BoRe-Depth模型方法

为了在边界精细度和实时性之间取得更好的平衡,作者提出了BoRe-Depth。其整体框架如下图所示,采用自监督学习范式,主要由DepthNet(深度网络)、PoseNet(位姿网络)和一个创新的两阶段训练策略构成。

模型的核心创新在于DepthNet的设计以及独特的训练策略。

增强特征自适应融合模块 (EFAF)

作者发现,现有的轻量化模型为了效率,解码器中的上采样操作过于简单,未能充分利用编码器提取的多尺度特征。为此,他们设计了 增强特征自适应融合模块(Enhanced Feature Adaptive Fusion Module, EFAF)。

如上图所示,EFAF解码器在融合来自编码器的不同层级特征时,会通过一个 空间通道增强块 (Spatial Channel Enhancement Block, SCE) 对相邻层级的特征进行增强。SCE通过深度可分离卷积等轻量化操作,在扩展特征维度的同时,自适应地整合多层次特征,从而在全局范围内增强边界细节的表达能力,让解码器能更准确地捕捉复杂场景下的空间结构和深度变化。

结合语义信息的两阶段训练策略

为了进一步提升边界质量,作者设计了一个巧妙的两阶段训练策略。

  • 第一阶段: 模型像传统的自监督方法一样进行训练,使用视图重建损失、几何一致性损失以及一个基于伪标签的边界对齐损失,得到一个初步的粗略模型。这里的伪标签由一个更强大的大模型生成,其边界比真值标签更清晰,为模型提供了良好的边界参考。

  • 第二阶段: 在模型具备初步的深度估计能力后,引入 语义信息损失 (Semantic Information Loss)。具体来说,作者使用一个在语义分割任务上预训练并冻结的MPViT编码器作为“教师”,引导DepthNet的编码器(“学生”)学习语义知识。通过计算两个编码器在像素级特征上的相似性,促使深度估计编码器关注到场景中的物体及其边界,从而显著优化细节。

这种渐进式的优化策略,避免了在训练初期就引入语义信息可能导致的干扰,让模型在已经理解场景几何结构的基础上,再学习语义信息来精修边界,取得了1+1>2的效果。

实验结果与分析

作者在室内静态场景数据集NYUv2、室外动态场景数据集KITTI以及泛化能力测试数据集IBims-1上对BoRe-Depth进行了全面评估。

定量结果

如下表所示,无论是在NYUv2还是KITTI数据集上,BoRe-Depth在拥有最少参数量(8.7M)的情况下,多项关键指标均达到了SOTA水平,尤其是在专门评估边界质量的指标上,取得了最佳表现。这证明了模型在轻量化的同时,确实有效提升了边界清晰度。

在iBims-1数据集上的零样本泛化测试结果也表明,BoRe-Depth具有出色的场景迁移能力,性能全面领先于其他轻量化模型。

定性结果

从下面的室内和室外场景可视化对比可以看出,相较于其他模型产生的模糊、扭曲的深度图,BoRe-Depth预测的深度图轮廓最清晰、细节最准确,无论是室内的家具边缘,还是室外的车辆轮廓,都得到了很好的还原。

室内场景对比

室外场景对比

消融实验

作者还通过消融实验验证了EFAF模块和两阶段训练策略的有效性。结果表明,EFAF中的每个SCE分支都对提升边界质量有积极作用;而在第二阶段引入语义损失的策略,相比于其他方式(如联合训练语义分割解码器或在第一阶段就引入语义损失),取得了最好的性能。这充分证明了BoRe-Depth设计的合理性和创新性。

EFAF模块消融研究

语义信息损失策略消融研究

总结

CV君认为,BoRe-Depth为嵌入式设备上的实时高精度深度估计提供了一个非常出色的解决方案。它巧妙地通过轻量化的EFAF模块和渐进式的语义信息融合策略,在模型参数、运行速度和边界质量之间实现了极佳的平衡。

目前代码已经开源,对于从事自动驾驶、机器人导航等相关领域研究的同学来说,这无疑是一个值得跟进和借鉴的优秀工作。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们