CV君 2025-11-14 22:14 江苏
无需LiDAR,手机拍照就能实现室内精准导航!
论文标题: PALMS+: Modular Image-Based Floor Plan Localization Leveraging Depth Foundation Model
作者: Yunqian Cheng, Benjamin Princen, Roberto Manduchi
机构: 加利福尼亚大学圣克鲁斯分校
会议: WACV 2026
在GPS信号失灵的室内环境中,如何精准定位?这不仅是路痴的痛点,更是紧急救援、视障人士辅助导航等应用场景下的关键技术难题。最近,来自加州大学圣克鲁斯分校的研究者们提出了一种名为 PALMS+ 的新型图像室内定位系统,它巧妙地利用了强大的深度基础模型,让普通的智能手机仅凭拍摄的几张照片,就能在没有GPS、无需额外基础设施的情况下,实现高精度的室内定位。
PALMS+ 这个名字是“基于平面的可访问室内定位(Plane-based Accessible Indoor Localization)”的缩写,加号“+”则代表了它是在其前身PALMS方法上的重大升级。
背景与动机
传统的室内定位方法,有的依赖Wi-Fi、蓝牙等信号指纹,但部署和维护成本高昂;有的则需要预先构建详细的图像或点云数据库,同样面临规模化难题。
为了解决这些问题,研究者们转向了利用无处不在的建筑平面图进行定位的方案。比如,PALMS+的前身PALMS,就尝试用智能手机的LiDAR进行环境扫描,再与平面图进行几何匹配。然而,手机LiDAR的探测距离有限(iPhone 14 Pro大约只有5米),并且在结构重复(如长长的走廊)的室内环境中,很容易产生定位模糊。
为了突破这些限制,PALMS+的核心思想是:用更强大的视觉感知能力替代有限的LiDAR。它不再依赖稀疏的LiDAR点云,而是转向利用普通RGB摄像头拍摄的图像,并通过一个强大的单目深度估计基础模型(Depth Pro),来重建一个更大范围、更精细的3D场景。
PALMS+的技术原理
PALMS+系统被设计为两个核心模块:一个负责“看懂”环境的观测模块,和一个负责“匹配”地图的布局匹配模块。
整个流程的输入是用户手持手机原地旋转拍摄的一系列RGB图像和对应的相机位姿(可由手机ARKit等追踪系统提供),以及一张建筑的2D平面图。输出则是一个概率热力图,清晰地显示出用户在地图上最可能的位置和朝向。
观测模块:从2D图像到3D点云
这是PALMS+最关键的创新之一。该模块的目标是从几张普通的2D照片中,重建出周围环境的带真实尺度的3D点云。
单目深度估计:首先,每一张输入的RGB图像 都会被送入一个预训练的深度基础模型(Depth Pro),生成一张稠密的深度图 。
局部点云生成:结合深度图、相机内参和位姿,可以为每一张图像生成一个局部的3D点云 。
尺度对齐(Scale Alignment):单目深度估计的一大挑战是尺度不确定性。不同视角下的深度图可能存在尺度误差。PALMS+设计了一套巧妙的自动对齐机制。它通过优化算法,调整不同局部点云之间的相对尺度,使得它们在重叠区域的几何结构尽可能一致。同时,它还通过检测地面并假设相机高度(如1.5米)来校正全局尺度。这一步是保证最终定位精度的关键。
上图展示了点云对齐的过程。图(a)演示了通过重叠区域和地面来对齐尺度的两种方法。图(b)、(c)、(d)则分别展示了在真实校园数据和Structured3D数据上,对齐前后的点云效果,可以看到原本零散的局部点云被有效地融合成了一个统一且结构正确的全局点云。
2D几何投影:最后,将融合好的3D点云投影到水平面上,并提取出墙体等主要结构的2D线段 ,作为后续与平面图匹配的依据。
布局匹配模块:在地图上找到“你”
这个模块继承并改进了PALMS的方法,核心思想是通过卷积操作,在整个楼层平面图上高效地搜索与观测到的几何结构最匹配的位置。
生成候选朝向:与PALMS假设建筑是“曼哈顿世界”(即墙体大多正交)不同,PALMS+通过分析平面图自身的墙体方向分布,智能地提取出几个最可能的朝向作为候选,更加灵活和普适。
卷积匹配:对于每一个候选朝向,将观测到的2D墙体线段作为一个“卷积核”,与整个楼层平面图进行卷积。卷积结果的高响应区域,就意味着该位置的地图结构与观测结构非常匹配。
考虑可见性约束:为了提高匹配的鲁棒性,算法还引入了“确定空旷空间(Certainly Empty Space, CES)”的概念。简单来说,如果在某个位置看到了远处的墙,那么你和这堵墙之间的空间里就不应该再有其他墙体。这个约束可以有效排除掉很多错误的匹配。
最终,PALMS+会为每个候选朝向生成一张热力图,综合起来就得到了关于用户位置和朝向的后验概率分布。
实验效果与分析
为了验证PALMS+的性能,研究者们在公开数据集Structured3D和一个自己采集的、包含4栋大型校园建筑的真实场景数据集上进行了充分的实验。
静态定位精度:显著优于同类方法
实验对比了PALMS+、其前身PALMS以及另一种先进的视觉定位方法F³Loc。结果显示,无论是在全视角(360度扫描)、部分视角还是单张图片的情况下,PALMS+的定位精度都全面超越了基线方法。
上表是在自建的校园数据集上的结果。可以看到,在全视角(Full-view)设置下,PALMS+的定位成功率(精度在1米内)达到了 30.4%,如果进一步手动屏蔽掉玻璃等透明表面的干扰(PALMS+*),成功率可以提升到 38.0%。相比之下,PALMS只有7.6%,而F³Loc则完全失效(0.0%)。即便只用一张图片(Single-view),PALMS+的成功率也能达到11.6%(屏蔽干扰后为14.0%),展现了其强大的性能。
在更具挑战性的Structured3D数据集上,PALMS+同样表现出色,在全视角下取得了 19.3% 的定位成功率(@1m 30°)。
上图的定性分析更直观地展示了三者差异。PALMS+(图b)生成的热力图相比F³Loc(图c)和PALMS(图e)更加聚焦,能够更准确地锁定真实位置(绿色圆圈)。这得益于深度基础模型带来的更远、更准的几何感知能力。
序列定位:持续追踪,误差更低
除了单次定位,PALMS+生成的概率热力图还可以作为粒子滤波器的输入,实现连续的行人追踪。在33条真实世界轨迹上的测试表明,结合粒子滤波后,PALMS+的最终定位误差(Loc. Err.)中位数仅为 1.3米,同样优于其他方法。
消融研究:尺度对齐是关键
研究者还通过消融实验证明了其提出的尺度对齐算法的有效性。如果不进行任何尺度对齐(None),定位成功率会从30.4%骤降至10.0%,这凸显了在基于单目深度的定位中,正确处理尺度问题至关重要。
总结
总而言之,PALMS+的提出,为无需预先训练、无需特殊硬件的室内定位技术开辟了一条新的道路。它成功地将深度基础模型的强大感知能力与经典的几何匹配算法相结合,在真实、复杂的室内环境中展现了卓越的鲁棒性和准确性。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!