动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍

CV君 2025-11-13 14:08 江苏

从零到一,构筑遥感开放分割新基石。

  • 论文标题: Exploring Efficient Open-Vocabulary Segmentation in the Remote Sensing

  • 作者: Bingyu Li, Haocheng Dong, Da Zhang, Zhiyuan Zhao, Junyu Gao, Xuelong Li

  • 机构: 中国科学技术大学,西北工业大学,Institute of Artificial Intelligence (TeleAI)

  • 论文地址: https://arxiv.org/abs/2509.12040v1

  • 代码仓库: https://github.com/LiBingyu01/RSKT-Seg

  • 录用信息: AAAI 2026 Oral

最近,将自然图像领域的开放词汇分割(Open-Vocabulary Segmentation, OVS)技术迁移到遥感(Remote Sensing, RS)领域成了一个热门方向。不过,由于缺乏统一的评测标准,加上自然图像和遥感图像之间存在巨大的领域差异,这个名为开放词汇遥感图像分割(OVRSIS)的新兴任务一直没能得到充分探索。

为了解决这些问题,来自中科大、西工大等机构的研究者们干了两件大事:首先,他们建立了一个标准化的OVRSIS评测基准,名为OVRSISBench;其次,基于对现有模型在该基准上表现不佳的观察,他们提出了一个专为遥感图像量身定制的新框架——RSKT-Seg。这个新方法不仅在精度上远超先前的基线模型,平均mIoU提升了3.8%,平均mACC提升了5.9%,而且通过高效的聚合策略,实现了推理速度翻倍的惊人效果。

上图直观展示了RSKT-Seg与经典OVS及OVRSIS模型在分割效果上的对比(a-c),以及在推理速度与精度上的双重优势(d)。

研究背景与挑战

传统的语义分割模型通常依赖大量手动标注的数据,并且只能识别预设的有限类别。当需要识别训练时未见过的“新”类别时,这些模型就无能为力了。开放词汇分割(OVS)的出现正是为了解决这个问题,它借助视觉-语言模型(如CLIP)的能力,使模型能够根据文本描述来分割任意类别的物体。

然而,将OVS直接应用于遥感图像领域却困难重重。遥感图像具有独特的“上帝视角”,导致物体存在任意旋转、尺度变化巨大等问题。此外,现有的OVS模型大多为自然场景设计,难以捕捉遥感图像特有的大尺度空间背景和光谱多样性。研究者们发现,即便是近期的OVRSIS模型,也未能充分利用遥感领域的先验知识,导致性能提升有限。

为了系统性地评估和推进这一领域,一个统一的评测基准变得至关重要。

上图展示了新基准OVRSISBench的构建思路,它基于开放词汇协议对现有遥感数据集进行划分,确保训练集和测试集之间的类别存在差异,从而真实地模拟开放词汇场景。

RSKT-Seg:为遥感而生的分割框架

针对上述挑战,研究者设计了RSKT-Seg,一个能够有效进行遥感知识迁移的开放词汇分割框架。其核心思想是融合多源知识,并针对遥感图像的特性进行专门优化。整个框架由三个关键模块组成。

上图是RSKT-Seg的整体框架图,清晰地展示了其三大核心组件:(a) RS-CMA模块、(b) RS-Fusion模块 和 (c) RS-Transfer上采样模块的工作流程。

1. 多方向代价图聚合 (RS-CMA)

遥感图像中的物体(如桥梁、飞机)可能以任何角度出现。为了解决旋转可变性问题,RS-CMA模块被设计出来。它的工作流程如下:

  • 输入: 一张待分割的遥感图像 和一组文本类别描述

  • 多方向编码: 将输入图像 进行四次旋转(0°, 90°, 180°, 270°),得到 。然后,使用CLIP的图像编码器 分别提取这四个方向的视觉特征

  • 遥感知识注入: 同时,使用一个在遥感数据集上预训练过的DINO编码器 提取原图的特征 。这一步旨在引入遥感领域的专属知识。

  • 代价图构建: 分别计算CLIP视觉特征和DINO特征与文本特征 之间的余弦相似度,生成多组代价图 。这些代价图反映了每个像素与每个文本类别的匹配程度。

  • 融合: 将所有代价图融合,生成一个既具有旋转不变性又融入了领域知识的融合代价图

上图详细描绘了(a)多旋转特征编码、(b)RS-DINO特征编码以及(c)代价图构建的过程,这些模块的设计精妙之处在于它们不引入任何需要学习的参数,非常高效。

2. 高效代价图融合 (RS-Fusion)

得到融合代价图后,需要进一步增强其空间和类别的判别能力。为此,RS-Fusion模块设计了两个轻量级的Transformer:空间增强Transformer (SET) 和类别增强Transformer (CET)。

  • 空间增强 (SET): 为了增强空间细节,该模块将代价图与来自CLIP和DINO的中间层特征进行拼接,并通过一个卷积层进行降维,以加速推理。然后,利用交叉注意力机制在空间维度上聚合上下文信息。

  • 类别增强 (CET): 该模块则在类别维度上进行操作,通过自注意力机制捕捉不同类别之间的相互关系,进一步提炼特征。

这种双重增强策略,结合了为加速推理而设计的特征降维方法,使得模型在保持高精度的同时,计算效率也得到了保证。

3. 遥感知识迁移上采样 (RS-Transfer Upsample)

经过融合和增强的代价图分辨率较低,缺乏精细的纹理细节。为了生成高分辨率的分割结果,RS-Transfer上采样模块在其中发挥了关键作用。它巧妙地将来自RemoteCLIP、CLIP和DINO编码器的多层中间特征注入到上采样过程中。这些包含丰富细节的特征与代价图逐层融合,最终恢复出与原图分辨率一致的、精确的分割掩码。

实验结果与分析

RSKT-Seg在新建的OVRSISBench(包含DLRSD、iSAID等8个数据集)上进行了全面测试,并与多种经典的OVS方法和最新的OVRSIS方法进行了对比。

实验证明,不同的代价图融合策略(均值、拼接、分离)对结果影响不大,但论文最终选择的拼接(cat)策略在m-mIoU上略有优势。

消融实验清晰地展示了每个模块的贡献。从基线模型开始,逐步加入旋转不变代价图(R-I Cost Map)、DINO代价图、RS-Transfer和RS-Fusion模块后,各项指标均得到稳步提升,证明了每个组件的有效性。

遥感知识的重要性

为了验证引入遥感专属知识的有效性,研究者对比了使用在自然图像上预训练的DINO(natureDINO)和在遥感数据上预训练的DINO(rsDINO)的效果。

结果显示,rsDINO带来的性能提升明显优于natureDINO,这充分说明了领域知识迁移在OVRSIS任务中的关键作用。

速度与效率分析

除了精度,效率也是RSKT-Seg的一大亮点。

与OVRS等方法相比,RSKT-Seg的平均推理时间仅为65.11毫秒,FPS达到了15.36,实现了超过2倍的速度提升。

更有趣的是,尽管RSKT-Seg的总参数量较大,但其可训练参数量(59.89M)却远少于Cat-Seg(127.55M)和OVRS(127.57M),这使得它的训练时间(7.96 ms/iter)成为所有对比方法中最快的。这得益于其巧妙的知识迁移和轻量化设计,使得模型能够“轻装上阵”,快速收敛。

可视化效果

通过可视化对比可以看出,RSKT-Seg的分割结果(第二行)在物体边界的精细度和类别区分的准确性上,都明显优于基线模型(第三行),更接近真实标签(第四行)。

当然,模型也存在一些局限性。例如,在有阴影遮挡的情况下,模型可能会发生误分类。

总结

总而言之,这项工作不仅为遥感领域的开放词汇分割研究铺平了道路,还提供了一个性能卓越、效率惊人的新基准模型。

大家对这个方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们