动态列表

  • 港科大(广州)等联合发布多模态空间推理综述:为大模型画下空间理解的未来蓝图
  • ReDiff:突破并行生成瓶颈,多模态扩散模型生成质量与效率双提升
  • 谢菲尔德大学提出Region-CAM:mIoU提升13.6%,破解弱监督学习中的目标定位难题
  • 英伟达开源ChronoEdit,让P图学会物理常识,时序推理颠覆图像编辑!
  • 天津大学与快手联手提出GRAG:仅需4行代码,实现图像编辑的“丝滑”微调
  • 美团开源LongCat-Video:136亿参数长视频生成,分钟级推理720p
  • 普林斯顿大学联手谷歌DeepMind,BOB让少样本细粒度分类精度飙升7.4%
  • IROS 2025 | 大连理工等提出STG-Avatar:25分钟训练,单目视频实时生成高保真数字人
  • 看似万能的 AI,其实比你想的更脆弱和邪恶
  • 世界模型是否需要显式的 3D?UT Austin 新作 PE-Field 给出答案
  • CUPID:单图秒速重建3D,港大提出姿态引导新范式
  • Feed-Forward 3D综述:三维视觉进入“一步到位”时代
  • 重建超越RAE,还能做编辑!北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
  • 每周100万人与ChatGPT聊自杀;美团推全国骑手社保补贴;高通发AI芯片,股价暴涨20%
  • 美国大学排名出炉:哥大断崖式下滑,MIT稳居CS榜第一!
  • 开源即登榜!登顶全球前十AI编程智能体,UCL初创团队开源Prometheus
  • 奥特曼考虑给ChatGPT加广告了!用8亿用户,救万亿债务
  • VaseVQA:考古领域实现专家级,诊断+补弱RL框架
  • 弑母分尸案震惊世界,AI伪造语音骗过警察!
  • 一把吉他卖出 10 亿后,LiberLive 选择自我革命
  • 仅仅是 AI,并不能让硬件更「智慧」,更重要的其实是这个
  • 北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家(P6-P7)
  • 多人物也能“认得准”!阿里开源Identity-GRPO,刷新视频生成一致性上限
  • RL记得更牢,SFT更健忘?普林斯顿陈丹琦团队改写后训练认知
  • “压缩不减智”!EPIC让多模态大模型以更少 Token 跑得更快、更稳|NeurIPS 2025
  • 川大等提出LG-CD:一句话精准锁定遥感影像变化,F1分数高达91.83%
  • 首个面向大模型的形式化数学竞赛正式启动:推动AI数学推理迈向可验证新高度
  • ICCV'25|开源AI3D数据集Objaverse++:更少的数据,却有更好的生成效果
  • ​一个对话助理,如何盘活整个「夸克宇宙」?
  • 马斯克 xAI 上新款「虚拟女友」;传小米 17 Air 明年上;996 成美国创业者美德
  • AI黑化如恶魔附体!LARGO攻心三步,潜意识种子瞬间开花 | NeurIPS 2025
  • 可攻可防,越狱成功率近90%!六大主流模型全中招 | EMNLP'25
  • 硅谷的「十万大裁员」:Meta按代码量裁员
  • 超94%类别第一!3D点云异常检测与修复新SOTA | ICCV'25
  • AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」
  • 博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
  • NeurIPS 2025 | 理解能否反过来教生成?VideoREPA让视频生成模型“懂物理”
  • 思而不学则殆:通义实验室×北大联合提出RL-PLUS,突破大模型推理边界
  • 上海交大与上海AI lab联手推出RAPO++:跨阶段提示优化,让文生视频模型“更懂你心”
  • NeurIPS 2025 | 港中文等提出COS3D:协同语言与分割,革新开放词汇3D分割
  • 传OpenAI正开发新的生成式音乐工具;苹果将AirPods印度产能扩大一倍;《王者荣耀世界》官宣2026春天见
  • Atlas来了!ChatGPT嵌入浏览器,用谷歌的引擎,革谷歌的命
  • 奥特曼抢走小扎印钞机!Meta「占领」OpenAI,20%都是前同事
  • StereoAdapter:北大首提自监督,适配水下双目深度估计
  • AI杀入美股,DeepSeek又是第一!港大90后开源,AI股神人人都能造
  • 从“Spider”到SAM 3:概念提示分割小考
  • ChatGPT 上线「公司知识库」;Optimus 机器人因「手」再次延期;理想回应 MEGA 起火事件|极客早知道

中科院SNELLA:视觉模型微调新范式,性能超越SOTA,内存占用降低近40%

CV君 2025-10-29 13:08 江苏

SNELLA,一种更高效、更强大的视觉模型参数高效微调新方法。

当我们在谈论微调巨大的预训练视觉模型时,计算资源和内存总是绕不开的话题。为了让这些“大块头”能更轻巧地适应下游任务,参数高效微调(PEFT)技术应运而生。而在众多PEFT方法中,稀疏微调(只调整模型中最关键的一部分权重)因其出色的性能备受关注。不过,传统方法通常采用“两步走”策略:先定位、再更新,这不仅过程繁琐,还特别耗内存。

今天,我们介绍一项来自中国科学院和中国科学院大学的最新研究,他们提出了一种名为 SNELLA 的全新方法,彻底改变了这一现状。它将稀疏微调变成了一个优雅的“一步式”端到端过程,不仅性能达到了新的SOTA,还实现了高达 31.1%-39.9% 的内存节省。

现有方法的局限

让我们先看看老路子是怎么走的。传统的稀疏微调方法通常分两步:

  1. 定位权重:首先根据梯度信息,找出与下游任务最相关的那些权重。但这个过程忽略了微调过程中参数本身的变化,有点“刻舟求剑”的意思,限制了最终的性能。

  2. 更新权重:找到权重后,通过一个稀疏掩码(sparse mask)只更新这些被选中的权重。问题在于,优化器为了计算梯度,仍然需要存储整个模型的全量权重矩阵,导致内存开销居高不下。

上图直观展示了传统两阶段范式与SNELLA一体化方法的区别。

SNELLA:一步到位的优雅解决方案

SNELLA巧妙地将权重的定位和更新融合在一个端到端的框架中,既省内存,又提性能。它的核心思想可以分解为两大创新点。

核化低秩适应(Kernelized Low-Rank Adaptation)

为了降低内存,SNELLA并没有直接更新庞大的权重矩阵,而是通过加上一个稀疏的“增量矩阵”来实现。这个增量矩阵本身不是直接学习的,而是由两个更小的低秩矩阵通过一个非线性核函数(non-linear kernel function)合成的。

这有点像LoRA的升级版。传统的LoRA用两个低秩矩阵的乘积来近似权重的更新,但表达能力有限。SNELLA引入的核函数,相当于将低秩矩阵映射到更高维的空间再做运算,极大地增强了模型的表达能力,让权重的更新更加灵活和强大,从而更好地适应下游任务。

上图展示了不同核函数的表达能力,可以看出非线性核(如Mix-K)能够更好地拟合复杂的稀疏矩阵。

自适应双层稀疏分配(Adaptive Bi-level Sparsity Allocation)

那么,模型如何智能地决定哪些权重“值得”更新呢?SNELLA设计了一套精妙的“竞争上岗”机制。

  • 层间竞争:首先,模型中的不同层会根据各自的“重要性”来竞争可调整的参数预算。这个重要性分数综合了该层对任务损失的敏感性(sensitivity)和不确定性(uncertainty),越重要的层能分到越多的更新名额。

  • 层内竞争:在每一层内部,所有权重更新的重要性也会被评估,只有那些得分最高的“优胜者”才会被保留,其余的则被置为零。

这套双层竞争机制是完全自适应的,并且贯穿整个训练过程,确保了最宝贵的计算资源总是花在最关键的参数上。

实验效果:性能与效率的双重胜利

SNELLA在图像分类、息肉分割和文生图等多种任务上都进行了广泛验证,并与多种主流PEFT方法进行了对比。

在标准的FGVC和VTAB-1k分类基准测试中,SNELLA全面超越了之前的方法。特别是在细粒度视觉分类(FGVC)任务上,相比强大的SPT-LoRA,SNELLA的Top-1准确率提升了整整 1.8%(从90.1%提升到91.9%),这是一个非常显著的进步。

更令人印象深刻的是它的内存效率。实验表明,随着模型参数规模从86M增长到632M,SNELLA相比全量微调等方法,能够节省 31.1%到39.9% 的内存。这意味着我们可以在消费级硬件上微调更大、更强的模型。

在下游任务的定性评估中,SNELLA同样表现出色。例如,在医疗影像的息肉分割任务中,它能更准确地识别和分割出病变区域。

在个性化的文生图任务中,SNELLA也能更好地学习和还原特定概念的视觉特征,生成与文本描述更一致的图像。

总结

CV君认为,SNELLA提出的这种将核方法与动态稀疏性结合的思路非常新颖,它不仅解决了现有稀疏微调方法的痛点,也为未来如何更高效地利用大模型提供了宝贵的启发。作者已经开源了代码,强烈推荐感兴趣的同学去尝试和探索。

大家对这种端到端的稀疏微调方法怎么看?欢迎在评论区一起交流!

阅读原文

跳转微信打开

联系我们