动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!

CV君 2025-11-19 15:57 江苏

Transformer太慢?CMU用“信心”给它装上涡轮!

  • 论文标题: Co-Me: Confidence-Guided Token Merging for Visual Geometric Transformers

  • 作者: Yutian Chen, Yuheng Qiu, Ruogu Li, Ali Agha, Shayegan Omidshafiei, Jay Patrikar, Sebastian Scherer

  • 机构: 卡内基梅隆大学 (Carnegie Mellon University), Field AI

  • 论文地址: https://arxiv.org/abs/2511.14751

  • 项目主页(代码还未放出): https://github.com/co-me-tokens/CoMe

最近,来自卡内基梅隆大学(CMU)和Field AI的研究团队推出了一项名为Co-Me的技术,全称是置信度引导的Token合并(Confidence-Guided Token Merging)。这个方法可以说是给计算量巨大的视觉几何Transformer模型装上了一个“涡轮增压器”,能在不重新训练、不改变模型主干的情况下,实现惊人的推理加速。

对于熟悉CV领域的朋友来说,Transformer的大名早已如雷贯耳。尤其在三维视觉任务中,像VGGT、MapAnything这类视觉几何Transformer模型,凭借其强大的能力,在三维重建、场景理解上取得了非常好的效果。但“能力越大,计算量越大”,Transformer自注意力机制带来的二次方复杂度,让它们在实时应用和边缘设备部署上显得力不从心。如何为这些强大的模型“瘦身减负”,同时又不牺牲性能,成了一个亟待解决的难题。

研究背景

为了解决Transformer的效率问题,学术界和工业界提出了不少方案。一类是“剪枝”(Token Pruning),比如DynamicViT,它会动态地丢掉一些不那么重要的Token。这种方法在分类等任务上效果不错,但在三维重建这类需要密集预测的任务中,直接丢掉Token会损失空间信息,导致重建细节崩坏。

另一类是“合并”(Token Merging),比如ToMe,它会把相似的Token合并起来,保留了空间覆盖,但效果往往有限。尤其在复杂的几何任务中,简单地基于相似度合并,可能会错误地融合掉一些包含关键几何信息的区域。

而今天的主角Co-Me,则另辟蹊径。它的核心思想非常直观:模型自己最清楚哪些区域的预测是可靠的。既然如此,我们何不利用模型本身的“自信心”来决定计算资源的分配呢?

Co-Me: 基于置信度引导的Token合并

Co-Me巧妙地利用了视觉几何Transformer模型在预测时会同步生成“置信度图”(Confidence Map)这一特性。置信度高的区域,通常是纹理丰富、几何结构稳定的地方;而置信度低的区域,则可能是天空、反光表面或者遮挡区域。Co-Me认为,在这些低置信度区域,我们不需要投入那么多计算,可以把它们的Token合并起来,从而节省计算量。

整个流程如上图所示,主要包含几个关键步骤:

置信度预测器

Co-Me并不会等到整个模型推理完才去拿最终的置信度图,那就太晚了。它设计了一个非常轻量的“置信度预测器”,这个预测器通过“蒸馏”的方式,从Transformer的中间层特征中学习预测最终的置信度。这个过程完全是自监督的,不需要任何额外的标注数据,训练起来又快又方便。论文发现,在VGGT的第15层进行蒸馏,效果最好,既能准确预测置信度,又能给后续层留出足够的加速空间。

Token合并与分割

有了置信度预测,接下来的操作就顺理成章了。

  • 掩码生成 (Mask Generation): 首先,根据预设的合并比例(比如p=0.5),Co-Me会筛选出置信度最低的那些Token,生成一个合并掩码。

  • 合并 (Merge): 对于标记为“合并”的Token组,Co-Me会将它们简单地取平均,融合成一个Token。而高置信度的Token则保持不变。这样一来,Token序列的长度就大大缩短了。

  • 分割 (Split): 在经过Attention或MLP模块的计算后,需要将序列恢复到原始长度,以便下游的预测头使用。Co-Me会把之前合并的那个Token复制多份,填充回原来的位置。

整个过程通过一个高效的自定义CUDA算子实现,最大程度地减少了操作本身带来的额外开销。

注意力偏差校正

这里有一个非常关键的技术细节。当多个Token被合并成一个后,它在Attention计算中的“分量”也应该相应变大,否则会破坏原始Attention权重的分布。

如上图所示,直接合并(左)会扭曲注意力分布。为了解决这个问题,作者们引入了一个巧妙的注意力偏差校正(Attention Bias Correction)。具体来说,如果一个Token是由n个原始Token合并而来的,那么在计算softmax之前,就给它的logit值加上一个偏置项 。这个简单的操作,等效于将其在softmax后的权重放大了n倍,从而完美地补偿了因合并造成的权重损失,保证了模型性能的稳定。

实验证明,这个小小的改动效果显著,能将误差降低多达4倍。

实验结果:快,且稳!

Co-Me的效果可以说非常惊艳。

在VGGT和MapAnything这两个SOTA模型上,Co-Me都取得了显著的加速效果。

  • 对于VGGT,在处理长序列(512帧)时,Co-Me实现了高达 11.3倍 的加速!对于更高的合并率(p=0.9),加速比甚至可以达到惊人的 26.65倍

  • 对于MapAnything,也实现了最高 7.2倍 的加速。

更重要的是,如此高的加速比,并没有以牺牲大量性能为代价。在单目深度估计、多视图深度估计、位姿估计和点云估计等多个任务上,Co-Me加速后的模型性能与原始模型相比,只有非常轻微的下降,甚至在某些场景下(如ETH3D数据集),由于Co-Me去除了低置信度区域的噪声,性能反而还有所提升!

作者还对比了其他合并策略,如基于相似度合并(Merge by Sim)、随机选择一个(Pick-one)或直接丢弃(Drop-all)。结果显示,Co-Me的置信度引导策略在性能-速度的权衡上全面胜出。

研究团队还在NVIDIA Jetson Thor这样的边缘计算设备上进行了实测。Co-Me加速的MapAnything模型能够以3.5 FPS的帧率运行,实现了1.5倍的端到端加速,将复杂的3D重建任务带入了近实时的领域。

当然,Co-Me也并非完美。在处理一些非常细长的物体时(比如灯柱、雕像的手臂),如果这些区域被判定为低置信度并被合并,可能会导致重建细节的丢失。

总结

总的来说,Co-Me是一项非常实用且巧妙的工作。它抓住了视觉几何Transformer自身就能提供“哪里重要”这一信息的特点,设计了一套即插即用、无需重训的加速方案。通过蒸馏轻量级置信度预测器和注意力偏差校正等一系列创新,实现了性能和效率的极佳平衡。这项技术让原本笨重的视觉几何Transformer变得更加轻快,为它们在自动驾驶、机器人、AR等领域的实时应用扫清了一大障碍。

你觉得这种动态调整计算量的方法,未来还能用在哪些地方?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们