动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!

CV君 2025-10-18 07:06 江苏

一个模型,上采样所有特征,即插即用!

今天和大家聊一篇非常有意思的新工作,来自马克斯·普朗克计算机科学研究所、谷歌、苏黎世联邦理工学院和慕尼黑工业大学的研究者们联手打造的 AnyUp

顾名思义,“AnyUp”就是“任意上采样”的意思。它的核心亮点在于,这是一个通用的特征上采样模型,能够处理来自任意视觉编码器(比如DINO、CLIP)的特征,在任意分辨率之间进行上采样,而且最关键的是——无需为特定的编码器进行重新训练。这解决了现有方法一个很大的痛点。

一起来看看这项工作的基本信息:

研究背景

大家知道,像DINO、CLIP这类强大的预训练视觉模型,已经成为计算机视觉领域的基石。但它们通常基于Transformer架构,为了计算效率,输出的特征图分辨率往往比较低(比如16x16或32x32)。这对于需要像素级预测的下游任务,如语义分割、深度估计等,是一个天然的限制。

为了解决这个问题,学术界提出了不少特征上采样的方法。但现有方法,特别是那些基于学习的方法(如FeatUp, LoftUp, JAFAR),通常存在一个“绑定”问题:它们需要针对某一个特定的特征提取器(encoder)进行训练。如果你想换一个编码器,比如从DINOv2换到SigLIP,对不起,请重新训练你的上采样模型。这不仅耗时耗力,有时甚至不可行(比如最新的大模型没有开放训练接口)。

AnyUp的出现,就是为了打破这种“一对一”的束缚,目标是创建一个“万能”的上采样器,训练一次,就能服务于所有视觉模型。

AnyUp的核心方法

AnyUp的整体架构基于一个Attention机制,这和近期的JAFAR、LoftUp等工作思路相似。但它通过几个关键设计,实现了“编码器无关”(encoder-agnostic)的特性。

特征无关层 (Feature-Agnostic Layer)

这是实现通用性的核心。传统的上采样模型在处理输入特征时,通常会用一个卷积层,但这个卷积层的输入通道数是固定的,所以只能处理特定维度的特征。

AnyUp设计了一个巧妙的“特征无关层”。它的工作方式是:

  1. 对输入特征的 每一个通道 (channel) 都独立地与一组共享的、可学习的卷积核 (basis filters) 进行卷积。

  2. 对每个通道的卷积结果,在“卷积核维度”上进行Softmax归一化。

  3. 最后,将 所有通道 的结果进行平均,得到最终的输出。

通过这种方式,无论输入特征有多少个通道(维度),输出的维度都是固定的,并且模型能够学习到跨通道的通用结构信息,而不是绑定在特定特征的语义上。CV君认为这个设计非常简洁且有效。

局部窗口注意力 (Local Window Attention)

之前的方法(如JAFAR)使用全局注意力,即高分辨率图像中的每个像素可以关注到低分辨率特征图中的任何一个位置。作者发现,这有时会导致模型错误地关联上图像中距离很远且不相关的区域,产生伪影。

AnyUp对此进行了简化,将注意力计算限制在一个 局部窗口 内。这样做不仅提升了效率,也让模型的学习任务变得更简单,因为它只需要关注局部信息,从而避免了不必要的“远距离联想”,使得上采样结果更稳定。

基于图像块的训练策略

在训练中如何获得用于监督训练的“真值”高分辨率特征呢?直接用大尺寸图像输入编码器计算,成本太高。AnyUp采用了一种高效的策略:

  1. 从一张高分辨率图像 I 中,随机裁剪出一个小块 I'

  2. 将完整图像 I 缩放到与 I' 同样的分辨率,并提取低分辨率特征 p

  3. p 通过AnyUp上采样到目标分辨率,得到 q

  4. 同时,直接从图像块 I' 提取“真值”特征 ĝ

  5. 监督信号来自于上采样结果 q 中对应 I' 的区域 q'ĝ 之间的差异。

这个策略非常高效,因为它避免了对超大分辨率图像进行特征提取。

实验效果如何?

AnyUp在多个下游任务上都展示了卓越的性能和泛化能力。

视觉质量对比

从PCA可视化的特征图可以看出,相比之前的方法(如LoftUp、JAFAR、FeatUp),AnyUp生成的特征图边缘更锐利,细节保留得更好,并且没有出现明显的伪影或特征分布偏移。

下游任务性能

在语义分割、深度估计和表面法线估计等任务上,AnyUp全面超越了之前的SOTA方法。

  • 语义分割: 在ADE20k数据集上取得了SOTA表现。

  • 深度和法线估计: 同样达到了SOTA,这表明AnyUp很好地保留了特征的局部几何信息,而这正是LoftUp等方法所欠缺的。

下面是更多在语义分割和深度估计任务上的定性结果,可以看到AnyUp的结果在细节和边界上都非常出色。

强大的泛化能力

这是AnyUp最令人印象深刻的地方。

  • 跨模型泛化: 一个仅在DINOv2特征上训练的AnyUp模型,可以直接用于上采样SigLIP、DINOv3等完全不同的编码器特征,并且性能依然强大,甚至接近或超过了为这些特定模型专门训练的上采样器。

  • 跨分辨率泛化: AnyUp支持从任意分辨率到任意分辨率的上采样,在各种分辨率组合下都保持了强大的性能。

  • 特征空间保持: 实验证明,AnyUp上采样后的特征很好地保留了原始低分辨率特征的分布,这意味着一个在低分辨率特征上训练好的线性分类器(probe)可以直接用在高分辨率特征上,性能几乎无损,甚至有所提升。

消融实验

消融研究证实了AnyUp每个设计的重要性,无论是特征无关层、局部窗口注意力还是数据采样策略,都对最终性能有显著贡献。

总结

总而言之,AnyUp通过简洁而创新的设计,实现了一个真正意义上的“即插即用”的通用特征上采样器。它不仅性能达到了SOTA,更重要的是其出色的泛化能力,极大地提升了预训练视觉模型在下游任务中的易用性和灵活性。作者已经开源了代码,感兴趣的同学可以去试试看!

大家对这个“万能”上采样方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们