动态列表

港科大（广州）等联合发布多模态空间推理综述：为大模型画下空间理解的未来蓝图
ReDiff：突破并行生成瓶颈，多模态扩散模型生成质量与效率双提升
谢菲尔德大学提出Region-CAM：mIoU提升13.6%，破解弱监督学习中的目标定位难题
英伟达开源ChronoEdit，让P图学会物理常识，时序推理颠覆图像编辑！
天津大学与快手联手提出GRAG：仅需4行代码，实现图像编辑的“丝滑”微调
美团开源LongCat-Video：136亿参数长视频生成，分钟级推理720p
普林斯顿大学联手谷歌DeepMind，BOB让少样本细粒度分类精度飙升7.4%
IROS 2025 | 大连理工等提出STG-Avatar：25分钟训练，单目视频实时生成高保真数字人
看似万能的 AI，其实比你想的更脆弱和邪恶
世界模型是否需要显式的 3D？UT Austin 新作 PE-Field 给出答案
CUPID：单图秒速重建3D，港大提出姿态引导新范式
Feed-Forward 3D综述：三维视觉进入“一步到位”时代
重建超越RAE，还能做编辑！北大&通义提出UniLIP: 自蒸馏训练助力CLIP大一统
每周100万人与ChatGPT聊自杀；美团推全国骑手社保补贴；高通发AI芯片，股价暴涨20%
美国大学排名出炉：哥大断崖式下滑，MIT稳居CS榜第一！
开源即登榜！登顶全球前十AI编程智能体，UCL初创团队开源Prometheus
奥特曼考虑给ChatGPT加广告了！用8亿用户，救万亿债务
VaseVQA：考古领域实现专家级，诊断+补弱RL框架
弑母分尸案震惊世界，AI伪造语音骗过警察！
一把吉他卖出 10 亿后，LiberLive 选择自我革命
仅仅是 AI，并不能让硬件更「智慧」，更重要的其实是这个
北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家（P6-P7）
多人物也能“认得准”！阿里开源Identity-GRPO，刷新视频生成一致性上限
RL记得更牢，SFT更健忘？普林斯顿陈丹琦团队改写后训练认知
“压缩不减智”！EPIC让多模态大模型以更少 Token 跑得更快、更稳｜NeurIPS 2025
川大等提出LG-CD：一句话精准锁定遥感影像变化，F1分数高达91.83%
首个面向大模型的形式化数学竞赛正式启动：推动AI数学推理迈向可验证新高度
ICCV'25｜开源AI3D数据集Objaverse++：更少的数据，却有更好的生成效果
一个对话助理，如何盘活整个「夸克宇宙」？
马斯克 xAI 上新款「虚拟女友」；传小米 17 Air 明年上；996 成美国创业者美德
AI黑化如恶魔附体！LARGO攻心三步，潜意识种子瞬间开花 | NeurIPS 2025
可攻可防，越狱成功率近90%！六大主流模型全中招 | EMNLP'25
硅谷的「十万大裁员」：Meta按代码量裁员
超94%类别第一！3D点云异常检测与修复新SOTA | ICCV'25
AI人格分裂实锤！30万道送命题，撕开OpenAI、谷歌「遮羞布」
博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
NeurIPS 2025 | 理解能否反过来教生成？VideoREPA让视频生成模型“懂物理”
思而不学则殆：通义实验室×北大联合提出RL-PLUS，突破大模型推理边界
上海交大与上海AI lab联手推出RAPO++：跨阶段提示优化，让文生视频模型“更懂你心”
NeurIPS 2025 | 港中文等提出COS3D：协同语言与分割，革新开放词汇3D分割
传OpenAI正开发新的生成式音乐工具；苹果将AirPods印度产能扩大一倍；《王者荣耀世界》官宣2026春天见
Atlas来了！ChatGPT嵌入浏览器，用谷歌的引擎，革谷歌的命
奥特曼抢走小扎印钞机！Meta「占领」OpenAI，20%都是前同事
StereoAdapter：北大首提自监督，适配水下双目深度估计
AI杀入美股，DeepSeek又是第一！港大90后开源，AI股神人人都能造
从“Spider”到SAM 3：概念提示分割小考
ChatGPT 上线「公司知识库」；Optimus 机器人因「手」再次延期；理想回应 MEGA 起火事件｜极客早知道

中科院SNELLA：视觉模型微调新范式，性能超越SOTA，内存占用降低近40%

2025-10-29未知作者来源

CV君 2025-10-29 13:08 江苏

SNELLA，一种更高效、更强大的视觉模型参数高效微调新方法。

当我们在谈论微调巨大的预训练视觉模型时，计算资源和内存总是绕不开的话题。为了让这些“大块头”能更轻巧地适应下游任务，参数高效微调（PEFT）技术应运而生。而在众多PEFT方法中，稀疏微调（只调整模型中最关键的一部分权重）因其出色的性能备受关注。不过，传统方法通常采用“两步走”策略：先定位、再更新，这不仅过程繁琐，还特别耗内存。

今天，我们介绍一项来自中国科学院和中国科学院大学的最新研究，他们提出了一种名为 SNELLA 的全新方法，彻底改变了这一现状。它将稀疏微调变成了一个优雅的“一步式”端到端过程，不仅性能达到了新的SOTA，还实现了高达 31.1%-39.9% 的内存节省。

论文标题: Kernelized Sparse Fine-Tuning with Bi-level Parameter Competition for Vision Models
作者: Shufan Shen, Junshu Sun, Shuhui Wang, Qingming Huang
机构: 中国科学院, 中国科学院大学
论文地址: https://arxiv.org/abs/2510.24037
代码仓库: https://github.com/ssfgunner/SNELL

现有方法的局限

让我们先看看老路子是怎么走的。传统的稀疏微调方法通常分两步：

定位权重：首先根据梯度信息，找出与下游任务最相关的那些权重。但这个过程忽略了微调过程中参数本身的变化，有点“刻舟求剑”的意思，限制了最终的性能。
更新权重：找到权重后，通过一个稀疏掩码（sparse mask）只更新这些被选中的权重。问题在于，优化器为了计算梯度，仍然需要存储整个模型的全量权重矩阵，导致内存开销居高不下。

上图直观展示了传统两阶段范式与SNELLA一体化方法的区别。

SNELLA：一步到位的优雅解决方案

SNELLA巧妙地将权重的定位和更新融合在一个端到端的框架中，既省内存，又提性能。它的核心思想可以分解为两大创新点。

核化低秩适应（Kernelized Low-Rank Adaptation）

为了降低内存，SNELLA并没有直接更新庞大的权重矩阵，而是通过加上一个稀疏的“增量矩阵”来实现。这个增量矩阵本身不是直接学习的，而是由两个更小的低秩矩阵通过一个非线性核函数（non-linear kernel function）合成的。

这有点像LoRA的升级版。传统的LoRA用两个低秩矩阵的乘积来近似权重的更新，但表达能力有限。SNELLA引入的核函数，相当于将低秩矩阵映射到更高维的空间再做运算，极大地增强了模型的表达能力，让权重的更新更加灵活和强大，从而更好地适应下游任务。

上图展示了不同核函数的表达能力，可以看出非线性核（如Mix-K）能够更好地拟合复杂的稀疏矩阵。

自适应双层稀疏分配（Adaptive Bi-level Sparsity Allocation）

那么，模型如何智能地决定哪些权重“值得”更新呢？SNELLA设计了一套精妙的“竞争上岗”机制。

层间竞争：首先，模型中的不同层会根据各自的“重要性”来竞争可调整的参数预算。这个重要性分数综合了该层对任务损失的敏感性（sensitivity）和不确定性（uncertainty），越重要的层能分到越多的更新名额。

层内竞争：在每一层内部，所有权重更新的重要性也会被评估，只有那些得分最高的“优胜者”才会被保留，其余的则被置为零。

这套双层竞争机制是完全自适应的，并且贯穿整个训练过程，确保了最宝贵的计算资源总是花在最关键的参数上。

实验效果：性能与效率的双重胜利

SNELLA在图像分类、息肉分割和文生图等多种任务上都进行了广泛验证，并与多种主流PEFT方法进行了对比。

在标准的FGVC和VTAB-1k分类基准测试中，SNELLA全面超越了之前的方法。特别是在细粒度视觉分类（FGVC）任务上，相比强大的SPT-LoRA，SNELLA的Top-1准确率提升了整整 1.8%（从90.1%提升到91.9%），这是一个非常显著的进步。

更令人印象深刻的是它的内存效率。实验表明，随着模型参数规模从86M增长到632M，SNELLA相比全量微调等方法，能够节省 31.1%到39.9% 的内存。这意味着我们可以在消费级硬件上微调更大、更强的模型。

在下游任务的定性评估中，SNELLA同样表现出色。例如，在医疗影像的息肉分割任务中，它能更准确地识别和分割出病变区域。

在个性化的文生图任务中，SNELLA也能更好地学习和还原特定概念的视觉特征，生成与文本描述更一致的图像。

总结

CV君认为，SNELLA提出的这种将核方法与动态稀疏性结合的思路非常新颖，它不仅解决了现有稀疏微调方法的痛点，也为未来如何更高效地利用大模型提供了宝贵的启发。作者已经开源了代码，强烈推荐感兴趣的同学去尝试和探索。

大家对这种端到端的稀疏微调方法怎么看？欢迎在评论区一起交流！

跳转微信打开

类别

资源

联系我们

业务咨询toolsai_server@163.com
用户投诉toolsai_server@163.com
产品提交