动态列表

  • 协和4+4的另一面:浙江范式用AI定义医疗未来!AI「智愈」时代来临
  • 睡觉也在卷!伯克利Letta新作「睡眠时计算」让推理效率飙升
  • 25位IT大佬亲述:AI「吃掉」程序员!码农黄金时代终结
  • i人如何在学术会议有效社交?滑铁卢大学教授Gautam Kamath亲授心得
  • 315 行代码构建编程助手,Go大佬揭开智能体的「神秘面纱」
  • 阿里云通义点金发布DianJin-R1金融领域推理大模型,32B模型荣膺榜首
  • CVPR 2025 | 如何稳定且高效地生成个性化的多人图像?ID-Patch带来新解法
  • 小米取消 SU7 Ultra 大马力限制 OTA;淘宝闪购上线,每天 2 个大红包;极客团队推《人生切割术》同款键盘
  • 1美元颠覆6000亿广告界,哥大辍学天才30天狂飙500万营收
  • 从游戏少女到AI女神!她用物理驯服AI,让飓风预测快1000倍
  • 全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震
  • 只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
  • 刚刚,ICML 2025录用结果公布!好评论文惨遭拒,审稿人敷衍引全网怒喷
  • Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
  • ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
  • 浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
  • Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
  • 马斯克怒怼特斯拉换帅报道;苹果库克称关税成本暂不转嫁给消费者,但未来难说;游戏科学获五四青年奖章集体
  • 400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能
  • AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
  • 北大出手,物理学院天才们教AI「做人」!PHYBench成大模型物理能力试金石
  • DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
  • 被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
  • 后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
  • ScienceOne正式发布:基于科学基础大模型的智能科研平台
  • 一个月 78 块的 AI 日历,治好了我的「万事开头难」
  • DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局
  • 2万亿巨兽来袭,小扎亮底牌! 首次回应Llama 4风暴,开源榜单背锅
  • 清华出手,挖走美国顶尖AI研究者!前DeepMind大佬被抄底,美国人才倒流中国
  • 刚刚,DeepSeek-Prover-V2-671B开源!
  • 发布 Qwen3,阿里云拉开新一轮开源模型竞赛的序幕
  • Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
  • 解决200种复杂材料,10Å尺度模拟纳米晶体,哥大团队用4万个原子结构训练AI,登Nature子刊
  • 真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
  • 刚刚!OpenAI回滚了最新版本的GPT-4o,因ChatGPT「过度谄媚」
  • 只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
  • 上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络
  • CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
  • R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调
  • ICLR 2025 | 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板
  • 北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec,实现效率性能双突破
  • 北京内推 | 中电信人工智能公司招聘多模态大模型算法实习生
  • 沃尔玛通知中国供应商恢复供货;Meta 推独立 AI 助手,融合社交元素;因「过于奉承」,OpenAI 撤回更新
  • AI包办79%代码,程序员饭碗不保!前端开发要凉,人类只配改Bug?
  • 细思极恐,AI操控舆论达人类6倍!卧底4月无人识破,Reddit集体沦陷
  • 大模型时代,百度智能云迎来最大机会
  • 我用Qwen3实测了9道经典难题,再聪明的AI也有犯傻的时候
  • 「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
  • 终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
  • 小红书,不止看车,更看生活
  • 阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
  • GPU无上限+AGI顶尖课题!蚂蚁星「Plan A」全球招募下一代AI领航者
  • 模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板
  • 33,000美元奖金池!Meta CRAG-MM挑战赛开启,多模态RAG巅峰对决
  • 博士申请 | 香港中文大学MMLab岳翔宇老师招收人工智能全奖博士/RA/实习生
  • ChatGPT的尽头也是「带货」:3、2、1,上链接
  • ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
  • 淘天集团“T-Star计划”首次向实习生开放,提供转正Offer
  • 猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
  • 语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
  • 2025 Meta CRAG-MM Challenge 赛题发布
  • 上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
  • 蚂蚁密算福州发布密态可信数据空间:高性能、低成本和全链路安全
  • 海螺+可灵、上线两个多月、5万+围观,零破绽,这支AI广告藏得太深了
  • 阿里开源新一代通义千问模型 Qwen3;传刘强东曾和王兴共聚晚餐;马斯克:5 年内机器人将超越外科医生 | 极客早知道
  • AI 2027研究揭秘美国算力真相!中国全球AI专利Top1,但美国或以算力取胜
  • 华人博士用ChatGPT治病,比医生靠谱?OpenAI联创点赞
  • 100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
  • AGI幻灭,LeCun观点得证?哈佛研究实锤AI不懂因果,世界模型神话破灭
  • 52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解
  • Apple Watch 10 周年,哪些「环」直到现在也没「合上」?
  • 从「黑科技」到「量产」,爱奇艺的虚拟制作进化论
  • 打造「无所不能、无处不在」的 AI,百度为何要从「操作系统」做起?
  • 北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
  • ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
  • ICLR 2025 | 大模型是否能做到有效“遗忘”?从梯度视角重新审视LLM反学习方法
  • ICLR 2025 | 基于多任务学习的回归范式实现更快的灵活分子对接
  • 智象未来x商汤大装置:全栈赋能全球首个开放使用视频生成DiT模型
  • 两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估
  • AI+量子计算:港科大等提出突破性低温存内计算方案
  • 除了Ilya、Karpathy,离职OpenAI的大牛们,竟然创立了这么多公司
  • 字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
  • 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
  • 模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
  • 重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
  • AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
  • 受关税影响,美电商商品价格普涨;京东外卖扩招 10 万旗手;苹果 AI 智能眼镜有望 2027 年推出|极客早知道
  • 一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
  • 深度学习基础架构革新?通过梯度近似寻找Normalization的替代品
  • ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限
  • 迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA
  • 英伟达送钱送算力!数据过滤挑战赛开启:白嫖A100,冲击1万美金大奖!
  • 字节启动Top Seed大模型顶尖人才计划2026届校招
  • 纳米AI放大招!MCP万能工具箱,人人都能用上超级智能体
  • Devin开发团队开源DeepWiki,助你快速读懂所有GitHub代码库
  • ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
  • 基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
  • 阶跃星辰发布图像编辑模型 Step1X-Edit,性能开源最佳
  • 百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
  • 清华系智谱×生数达成战略合作,专注大模型联合创新
  • 九章云极DataCanvas公司双论文入选全球顶会ICLR,推动AI解释性与动态因果推理核心进展​
  • 在介观尺度「找不同」?ML预测材料失效,使材料设计更安全
  • 阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
  • 传马斯克 xAI 正寻求 200 亿美元融资;Waymo 未来或向个人销售自动驾驶汽车;贾跃亭回应「下周回国」梗

LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能

LoRA 中到底存在多少参数冗余?这篇创新研究介绍了 LoRI 技术,它证明即使大幅减少 LoRA 的可训练参数,模型性能依然保持强劲。研究团队在数学推理、代码生成、安全对齐以及 8 项自然语言理解任务上测试了 LoRI。发现仅训练 LoRA 参数的 5%(相当于全量微调参数的约 0.05%),LoRI 就能匹配或超越全量微调、标准 LoRA 和 DoRA 等方法的性能。

图片

大型语言模型的部署仍然需要大量计算资源,特别是当需要微调来适应下游任务或与人类偏好保持一致时。

为了降低高昂的资源成本,研究人员开发了一系列参数高效微调(PEFT)技术。在这些技术中,LoRA 已被广泛采用。

不过,LoRA 仍然会带来显著的内存开销,尤其是在大规模模型中。因此,近期研究聚焦于通过减少可训练参数数量进一步优化 LoRA。

最近的研究表明,增量参数(微调后的参数减去预训练模型参数)存在显著冗余。受随机投影有效性和增量参数冗余性的启发,来自马里兰大学和清华大学的研究者提出了带有降低后的干扰的 LoRA 方法——LoRI(LoRA with Reduced Interference)

LoRI 保持低秩矩阵 A 作为固定的随机投影,同时使用任务特定的稀疏掩码训练矩阵 B。为了保留 B 中最关键的元素,LoRI 通过选择所有层和投影中具有最高幅度的元素来执行校准过程,从而提取稀疏掩码。

如图 1(a) 所示,即使 B 具有 90% 的稀疏性且 A 保持冻结状态,LoRI 仍能保持良好性能。这表明适应过程不需要更新 A,且 B 存在相当大的冗余。通过应用比 LoRA 更受约束的更新,LoRI 显著减少了可训练参数的数量,同时在适应过程中更好地保留了预训练模型的知识。

图片
图片

多任务学习对于实现具有多任务能力的通用模型至关重要,传统上通过在任务特定数据集的组合上进行联合训练来实现。然而,在这种数据混合上训练大型模型在时间和计算资源上成本过高。模型合并是一种无需训练的替代方案,通过组合现有模型来构建强大的模型。这种方法非常适合合并 LoRA 适配器,使单个 LoRA 具备多任务能力。

然而,如图 1(b) 所示,直接合并异构 LoRA 通常会导致参数干扰,使合并后的 LoRA 性能低于单任务 LoRA。此外,许多现有的合并方法需要反复试验才能确定特定任务组合的最佳方法。

LoRI 通过实现适配器合并而无需手动选择合并方法来解决这些挑战。通过使用固定的、随机初始化的投影 A,LoRI 将任务特定的适配器映射到近似正交的子空间,从而减少合并多个 LoRI 时的干扰。

除了多任务处理外,安全关键场景要求每个新引入的适配器在增强模型能力的同时保持预训练基础模型的安全对齐。LoRI 提供了一种轻量级的持续学习方法,用于调整模型同时保持安全性,其中训练是在任务间顺序进行的。该策略首先在安全数据上微调适配器以建立对齐,然后分别适应每个下游任务。

然而,如图 1(c) 所示,持续学习常常导致灾难性遗忘,即对新任务的适应会严重损害先前获得的知识。LoRI 通过特定任务掩码利用矩阵 B 的稀疏性来减轻遗忘。这种跨任务参数更新的隔离促进了干扰最小化的持续学习,同时保持了安全性和任务有效性。

为评估 LoRI 的有效性,作者在涵盖自然语言理解、数学推理、代码生成和安全对齐任务的多种基准上进行了大量实验。

以 Llama-3-8B 和 Mistral-7B 作为基础模型,他们的结果表明,LoRI 达到或超过了全量微调(FFT)、LoRA 和其他 PEFT 方法的性能,同时使用的可训练参数比 LoRA 少 95%。值得注意的是,在使用 Llama-3 的 HumanEval 上,B 中具有 90% 稀疏度的 LoRI 比 LoRA 高出 17.3%。

图片

除单任务适应外,他们还评估了 LoRI 在多任务环境中的表现,包括适配器合并和持续学习场景。LoRI 适配器的串联合并总体上始终优于 LoRA 适配器,与单任务 LoRA 基线的性能非常接近。在持续学习方面,LoRI 在减轻安全对齐的灾难性遗忘方面显著优于 LoRA,同时在下游任务上保持强劲表现。

图片
  • 论文标题:LoRI: Reducing Cross-Task Interference in Multi-Task LowRank Adaptation 

  • 论文链接:https://arxiv.org/pdf/2504.07448

  • 代码链接:https://github.com/juzhengz/LoRI

  • HuggingFace:https://huggingface.co/collections/tomg-group-umd/lori-adapters-67f795549d792613e1290011

方法概览

如下图所示,论文中提出的 LoRI 方法主要有以下要点: 

  1. LoRI 冻结投影矩阵 A_t,并使用特定任务的掩码稀疏更新 B_t;

  2. LoRI 支持多个特定于任务的适配器合并,减少了参数干扰;

  3. LoRI 通过不断学习和减少灾难性遗忘来建立安全适配器。

图片

在作者推文评论区,有人问这个方法和之前的方法(如 IA3)有何不同。作者回复称,「IA3 和 LoRI 在调整模型参数的方式上有所不同:IA3 学习键/值/FFN 激活的 scaling 向量。可训练参数就是 scaling 向量。LoRI(基于 LoRA)将权重更新分解为低秩矩阵。它将 A 保持冻结,并对 B 应用固定的稀疏性掩码。所以只有 B 的未掩蔽部分被训练。」

图片

实验结果

作者采用 Llama-3-8B 和 Mistral7B 作为基准模型,所有实验均在 8 块 NVIDIA A5000 GPU 上完成。如图 1(a) 所示,LoRI 在矩阵 B 达到 90% 稀疏度时仍能保持强劲性能。为探究稀疏度影响,作者提供了两个 LoRI 变体:使用稠密矩阵 B 的 LoRI-D,以及对矩阵 B 施加 90% 稀疏度的 LoRI-S。

单任务性能

表 1 展示了不同方法在 8 个自然语言理解(NLU)基准测试中的单任务结果,表 2 则报告了不同方法在数学、编程和安全基准上的表现。

图片
图片

全参数微调(FFT)会更新所有模型参数,而 LoRA 和 DoRA 将可训练参数量降至约 1%。LoRI-D 通过冻结矩阵 A 进一步将参数量压缩至 0.5%,LoRI-S 则通过对矩阵 B 施加 90% 稀疏度实现 0.05% 的极致压缩——相比 LoRA 减少 95% 可训练参数。尽管调参量大幅减少,LoRI-D 和 LoRI-S 在 NLU、数学、编程及安全任务上的表现均与 LoRA、DoRA 相当甚至更优。

适配器融合

作者选取 NLU、数学、编程和安全四类异构任务进行 LoRA 与 LoRI 融合研究,该设定比融合同类适配器(如多个 NLU 适配器)更具挑战性。

表 3 呈现了四类任务的融合结果。作者对 LoRI-D 和 LoRI-S 变体分别采用串联融合与线性融合。由于 LoRI 已对矩阵 B 进行稀疏化,基于剪枝的方法(如幅度剪枝、TIES、DARE)不再适用——这些方法会剪枝矩阵 A,导致 AB 矩阵剪枝策略不一致。

图片

如表 3 所示,直接融合 LoRA 会导致性能显著下降(特别是代码生成与安全对齐任务)。虽然剪枝方法(如 DARE、TIES)能提升代码性能,但往往以牺牲其他任务精度为代价。相比之下,LoRI 在所有任务上均表现稳健,其中 LoRI-D 的串联融合方案整体表现最佳,几乎与单任务基线持平,这表明 LoRI 适配器间存在最小干扰。

持续学习

虽然合并适配器能够实现多任务能力,但在需要强大安全保障的场景中,它无法提供稳健的安全对齐。如表 3 所示,通过 LoRA 或 LoRI 合并所能达到的最高安全得分为 86.6。

为了解决这一问题,作者采用了两阶段训练过程:首先,在 Saferpaca 安全对齐数据集上训练安全适配器;然后,将其分别适应到各个下游任务,包括自然语言理解(NLU)、数学和代码。

图 3 展示了这些持续学习实验的结果。LoRA 在安全对齐上表现出严重的灾难性遗忘——尤其是在安全→NLU 实验中——这可能是由于 NLU 训练集较大(约 17 万个样本)所致。在所有方法中,LoRI-S 实现了对安全对齐的最佳保留,甚至优于单任务 LoRI-D。这是因为其 B 矩阵具有 90% 的稀疏性,能够在安全对齐和任务适应之间实现参数更新的隔离。LoRI-D 也表现出一定的抗遗忘能力,得益于其冻结的 A 矩阵。对于任务适应,LoRI-D 通常优于 LoRI-S,因为后者激进的稀疏性限制了其适应能力。

图片

总体而言,LoRI 提供了一种轻量级且有效的方法来构建安全适配器,在支持下游任务适应的同时保持对齐。

详细内容请参见原论文。

]]>

联系我们