动态列表

  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道

NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能

CV君 2025-11-09 11:32 江苏

即插即用,让ViT学会“找不同”,计算开销不变,性能全面提升。

大家好,我是CV君。今天想和大家聊一篇来自清华大学和北京大学的最新研究,它给热门的Vision Transformer(ViT)带来了一次相当漂亮的“线性提速”。

这篇被 NeurIPS 2025 录用的论文,标题为《Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials》,提出了一种名为“视觉对比注意力”(Visual-Contrast Attention, VCA)的新模块。简单来说,VCA就像是给ViT装上了一双“火眼金睛”,让它不再是“一视同仁”地看图中所有内容,而是学会了主动“找不同”,聚焦于那些真正具有区分度的信息。最关键的是,这个新模块几乎不增加计算量,却能实打实地提升模型性能。

下面是论文的基本信息,感兴趣的朋友可以深入研究:

  • 论文标题: Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials

  • 作者团队: Yifan Pu, Jixuan Ying, Qixiu Li, Tianzhu Ye, Dongchen Han, Xiaochen Wang, Ziyi Wang, Xinyu Shao, Gao Huang, Xiu Li

  • 所属机构: 清华大学、北京大学

  • 论文地址: https://arxiv.org/abs/2511.00833

  • 项目主页: https://github.com/LeapLabTHU/LinearDiff

ViT的“甜蜜烦恼”与VCA的诞生

熟悉CV的朋友们都知道,Vision Transformer(ViT)现在是遍地开花,无论图像识别还是图像生成,都能看到它的身影。但ViT也有个“甜蜜的烦恼”——它的核心部件,多头自注意力(Multi-Head Self-Attention, MHSA),计算量太大了。

MHSA会对图像中的每一对图块(token)都进行相似度计算,这是一个平方级别的复杂度(O(N²))。这意味着,图像越大、图块越多,计算成本就呈指数级增长。很多时候,模型把大量的算力都浪费在了计算那些没啥信息量或者重复的区域关系上。

为了解决这个问题,研究者们想了不少办法。有的方法限制注意力范围,比如只在局部窗口内计算,但这又可能丢失全局信息。有的方法用低秩分解或傅里叶变换来近似注意力矩阵,但它们还是平等地对待所有信息,没能抓住重点。

而这篇论文的作者们另辟蹊径,他们认为,与其被动地处理所有信息,不如让模型主动去发现“对比”和“差异”。这个想法催生了 视觉对比注意力(VCA)

VCA如何实现“找不同”?

VCA的设计非常巧妙,可以即插即用地替换掉原来ViT中的MHSA模块。它的核心思想分为两步:

第一阶段:生成全局对比信息

首先,VCA不再让所有的查询(query)都去和键(key)直接硬碰硬。它选择了一种更聪明的方式:

  1. 信息压缩:对于每个注意力头,VCA先把整个图像的查询特征图(Query Feature Map)通过平均池化(Average Pooling)操作,压缩成一个很小的网格(比如8x8)。这样,原来成百上千的图块(token)就被浓缩成了几十个“视觉对比令牌”(visual-contrast tokens)。

  2. 创建正负“视角”:接下来是关键一步。VCA为这些浓缩后的令牌添加两种不同的、可学习的位置编码,从而创造出两个“流”:一个“正向流”(positive stream)和一个“负向流”(negative stream)。你可以把它们想象成从两个略有不同的角度去观察同一份浓缩信息。

  3. 差分交互:这两个流分别与全局的键(key)和值(value)进行交互,然后将得到的结果相减。这一减,神奇的事情发生了——那些在两个“视角”下都差不多的普通信息被抵消了,而那些有显著差异的、真正重要的对比信息就被凸显了出来。

通过这个过程,VCA用很小的计算代价,就提炼出了一份信息量极高的“全局对比图”。

第二阶段:基于对比图进行精细化注意力

有了这份“全局对比图”,第二阶段就简单高效多了。原始的每个图块查询(patch query)不再需要跟所有其他图块去比较,而是直接与这份浓缩的“对比图”进行交互。

这个交互同样是差分式的,查询会同时关注对比图的“正向”和“负向”信息,最终计算出每个图块在“对比”视角下的重要性。

整个过程下来,VCA成功地将计算复杂度从 O(N²C) 降低到了 O(NnC),其中 n 是对比令牌的数量,远小于 N。这意味着计算成本与图块数量 N 之间变成了线性关系,ViT终于可以“减负”了。

效果如何?数据说话

理论说得再好,还得看实际效果。作者们在图像分类和图像生成两大任务上对VCA进行了充分验证。

图像分类:精度显著提升

在ImageNet-1K分类任务上,VCA的效果非常惊人。

从上表可以看到:

  • 给轻量的DeiT-Tiny模型换上VCA后,参数量只增加了0.3M,计算量(FLOPs)不变,但Top-1准确率直接从72.2%提升到了 75.6%,足足高了 3.4 个百分点!

  • 即使是对于Swin Transformer这类已经经过优化的层级式ViT,VCA同样能带来稳定的性能提升,最高提升了 3.1 个百分点(在PVT-Tiny上)。

CV君认为,这个结果说明VCA的“对比”机制确实抓住了图像识别的关键,而且它的普适性很好,能给各种ViT架构带来增益。

图像生成:生成质量更高

在类条件图像生成任务上,作者们将VCA应用到了DiT(Diffusion Transformer)和SiT(Flow Transformer)模型上。评价指标是FID,这个值越低说明生成图像的质量越高。

结果同样令人印象深刻:

  • 在各种模型尺寸和配置下,VCA都稳定地降低了FID分数。

  • 对于DiT-S/4模型,FID分数降低了 5.2 点;对于DiT-S/2模型,FID降低了 4.9 点。

  • 无论是基于扩散的DiT还是基于流的SiT,VCA都能起作用,证明了它对生成范式的普适性。

消融实验:每个设计都不可或缺

为了证明VCA的设计不是“玄学”,作者还做了详尽的消融实验。

上表验证了VCA两个阶段的协同作用。无论是只用第一阶段的全局对比,还是只用第二阶段的差分注意力,性能都有提升,但将两者结合起来效果最好。

而这张表则证明了“空间池化”和“双位置编码”这两个设计的必要性。简单地使用可学习的嵌入(Embedding)虽然也有效果,但远不如从图像本身通过池化(Pooling)获取信息,并用正负位置编码来区分“视角”来得有效。这说明,让模型从数据中学习对比线索,才是VCA成功的关键。

总结

总的来说,VCA用一个简单、轻量且高效的“差分”思想,漂亮地解决了ViT的计算瓶颈,并带来了实实在在的性能飞跃。它提醒我们,有时候注意力机制不一定非得是“相似性”的度量,也可以是“差异性”的发现者。

阅读原文

跳转微信打开

联系我们