动态列表

  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办

WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破

CV君 2025-11-14 22:14 江苏

无需LiDAR,手机拍照就能实现室内精准导航!

在GPS信号失灵的室内环境中,如何精准定位?这不仅是路痴的痛点,更是紧急救援、视障人士辅助导航等应用场景下的关键技术难题。最近,来自加州大学圣克鲁斯分校的研究者们提出了一种名为 PALMS+ 的新型图像室内定位系统,它巧妙地利用了强大的深度基础模型,让普通的智能手机仅凭拍摄的几张照片,就能在没有GPS、无需额外基础设施的情况下,实现高精度的室内定位。

PALMS+ 这个名字是“基于平面的可访问室内定位(Plane-based Accessible Indoor Localization)”的缩写,加号“+”则代表了它是在其前身PALMS方法上的重大升级。

背景与动机

传统的室内定位方法,有的依赖Wi-Fi、蓝牙等信号指纹,但部署和维护成本高昂;有的则需要预先构建详细的图像或点云数据库,同样面临规模化难题。

为了解决这些问题,研究者们转向了利用无处不在的建筑平面图进行定位的方案。比如,PALMS+的前身PALMS,就尝试用智能手机的LiDAR进行环境扫描,再与平面图进行几何匹配。然而,手机LiDAR的探测距离有限(iPhone 14 Pro大约只有5米),并且在结构重复(如长长的走廊)的室内环境中,很容易产生定位模糊。

为了突破这些限制,PALMS+的核心思想是:用更强大的视觉感知能力替代有限的LiDAR。它不再依赖稀疏的LiDAR点云,而是转向利用普通RGB摄像头拍摄的图像,并通过一个强大的单目深度估计基础模型(Depth Pro),来重建一个更大范围、更精细的3D场景。

PALMS+的技术原理

PALMS+系统被设计为两个核心模块:一个负责“看懂”环境的观测模块,和一个负责“匹配”地图的布局匹配模块

整个流程的输入是用户手持手机原地旋转拍摄的一系列RGB图像和对应的相机位姿(可由手机ARKit等追踪系统提供),以及一张建筑的2D平面图。输出则是一个概率热力图,清晰地显示出用户在地图上最可能的位置和朝向。

观测模块:从2D图像到3D点云

这是PALMS+最关键的创新之一。该模块的目标是从几张普通的2D照片中,重建出周围环境的带真实尺度的3D点云。

  1. 单目深度估计:首先,每一张输入的RGB图像 都会被送入一个预训练的深度基础模型(Depth Pro),生成一张稠密的深度图

  2. 局部点云生成:结合深度图、相机内参和位姿,可以为每一张图像生成一个局部的3D点云

  3. 尺度对齐(Scale Alignment):单目深度估计的一大挑战是尺度不确定性。不同视角下的深度图可能存在尺度误差。PALMS+设计了一套巧妙的自动对齐机制。它通过优化算法,调整不同局部点云之间的相对尺度,使得它们在重叠区域的几何结构尽可能一致。同时,它还通过检测地面并假设相机高度(如1.5米)来校正全局尺度。这一步是保证最终定位精度的关键。上图展示了点云对齐的过程。图(a)演示了通过重叠区域和地面来对齐尺度的两种方法。图(b)、(c)、(d)则分别展示了在真实校园数据和Structured3D数据上,对齐前后的点云效果,可以看到原本零散的局部点云被有效地融合成了一个统一且结构正确的全局点云。

  4. 2D几何投影:最后,将融合好的3D点云投影到水平面上,并提取出墙体等主要结构的2D线段 ,作为后续与平面图匹配的依据。

布局匹配模块:在地图上找到“你”

这个模块继承并改进了PALMS的方法,核心思想是通过卷积操作,在整个楼层平面图上高效地搜索与观测到的几何结构最匹配的位置。

  • 生成候选朝向:与PALMS假设建筑是“曼哈顿世界”(即墙体大多正交)不同,PALMS+通过分析平面图自身的墙体方向分布,智能地提取出几个最可能的朝向作为候选,更加灵活和普适。

  • 卷积匹配:对于每一个候选朝向,将观测到的2D墙体线段作为一个“卷积核”,与整个楼层平面图进行卷积。卷积结果的高响应区域,就意味着该位置的地图结构与观测结构非常匹配。

  • 考虑可见性约束:为了提高匹配的鲁棒性,算法还引入了“确定空旷空间(Certainly Empty Space, CES)”的概念。简单来说,如果在某个位置看到了远处的墙,那么你和这堵墙之间的空间里就不应该再有其他墙体。这个约束可以有效排除掉很多错误的匹配。

最终,PALMS+会为每个候选朝向生成一张热力图,综合起来就得到了关于用户位置和朝向的后验概率分布。

实验效果与分析

为了验证PALMS+的性能,研究者们在公开数据集Structured3D和一个自己采集的、包含4栋大型校园建筑的真实场景数据集上进行了充分的实验。

静态定位精度:显著优于同类方法

实验对比了PALMS+、其前身PALMS以及另一种先进的视觉定位方法F³Loc。结果显示,无论是在全视角(360度扫描)、部分视角还是单张图片的情况下,PALMS+的定位精度都全面超越了基线方法

上表是在自建的校园数据集上的结果。可以看到,在全视角(Full-view)设置下,PALMS+的定位成功率(精度在1米内)达到了 30.4%,如果进一步手动屏蔽掉玻璃等透明表面的干扰(PALMS+*),成功率可以提升到 38.0%。相比之下,PALMS只有7.6%,而F³Loc则完全失效(0.0%)。即便只用一张图片(Single-view),PALMS+的成功率也能达到11.6%(屏蔽干扰后为14.0%),展现了其强大的性能。

在更具挑战性的Structured3D数据集上,PALMS+同样表现出色,在全视角下取得了 19.3% 的定位成功率(@1m 30°)。

上图的定性分析更直观地展示了三者差异。PALMS+(图b)生成的热力图相比F³Loc(图c)和PALMS(图e)更加聚焦,能够更准确地锁定真实位置(绿色圆圈)。这得益于深度基础模型带来的更远、更准的几何感知能力。

序列定位:持续追踪,误差更低

除了单次定位,PALMS+生成的概率热力图还可以作为粒子滤波器的输入,实现连续的行人追踪。在33条真实世界轨迹上的测试表明,结合粒子滤波后,PALMS+的最终定位误差(Loc. Err.)中位数仅为 1.3米,同样优于其他方法。

消融研究:尺度对齐是关键

研究者还通过消融实验证明了其提出的尺度对齐算法的有效性。如果不进行任何尺度对齐(None),定位成功率会从30.4%骤降至10.0%,这凸显了在基于单目深度的定位中,正确处理尺度问题至关重要。

总结

总而言之,PALMS+的提出,为无需预先训练、无需特殊硬件的室内定位技术开辟了一条新的道路。它成功地将深度基础模型的强大感知能力与经典的几何匹配算法相结合,在真实、复杂的室内环境中展现了卓越的鲁棒性和准确性。

你觉得这个技术未来会用在哪些场景?一起来聊聊吧!

阅读原文

跳转微信打开

联系我们