动态列表

  • 刚刚!软银系创始人4个月打造机器人超级黑马,获2轮近亿元融资
  • 博士生,当代最穷科研民工?Nature最新调查:不涨工资,我们就跑路了
  • AI改造出行体验:滴滴的试验能否开启行业范式转变?
  • GPT-5「降智」真相曝光:不是变笨,而是五个超级开关没激活
  • OpenAI 刚刚发布了属于 AI 的抖音,还有 Sora 2
  • YOLO26首份学界评论:端到端无NMS,目标成为边缘设备实时目标检测新标杆
  • DeFacto:用强化学习治愈AI幻觉,让多模态模型“有据可查”
  • NeurIPS 2025 | 清华大学与华为等提出全新正则化方法,破解稀疏视图3DGS“协同适应”难题
  • LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
  • 榜一换人!OCRBench v2九月新榜:揭示多模态大模型文档智能真实水平
  • 把“俄罗斯方块”搬进设计室:物竞天择让振动微型机器人进化得越跑越快
  • DeepSeek V3.2 发布,API 成本减半;特斯拉员工被机器人打伤,索赔 5100 万美元;Claude 新模型登场
  • 谷歌Veo 3论文竟无一作者来自美国!揭秘零样本「看懂」世界
  • 零样本「即插即用」!智源开源RoboBrain-X0,一个基座模型开动不同机器人
  • AI老司机现身重庆!徐峥挑战赛车手,上演「不再囧途」
  • 强化学习之父给LLM判死刑!站队LeCun:我们全搞错了
  • 独家!DeepSeek最新模型上线,全新注意力机制基于北大ACL最佳论文
  • 4B逼近DeepSeek-R1!Bengio团队「递归聚合」刷新小模型上限
  • KDD 2025 | 看不见也能控:用“基混杂向量”打穿分布移位,交通预测稳了
  • 北京内推 | 快手可灵AI技术部招聘视频生成/数字人方向算法实习生
  • 在云栖,我们遇见了最会玩的「AI 原住民」
  • NeurIPS 2025 | UniPixel:首个统一对象指代与分割的像素级推理框架,让大模型看懂每一个像素
  • NeurIPS 2025 | Seg4Diff:无需分割头,揭示并放大扩散Transformer中的涌现分割能力
  • 做 AI 陪伴收获 1000 万用户后,前微信 AI 产品负责人,要重新定义生活里的 AI
  • 透视阿里云产品生态团队:AI 落地的「关键通道」
  • OpenAI「降配门」发酵,偷换模型遭全网实锤;小米 SU7 在日本首秀;苹果内部测试类 ChatGPT 应用|极客早知道
  • OpenAI「GPT门」事件引爆!Plus、Pro账户统统降配,偷换模型全网实锤
  • 突发,普林斯顿CS博士后猝然离世!清华本科毕业,刚完成论文答辩
  • 国内首次!8.9毫秒推理速度破纪录,1元打穿百万token
  • 惊现高管离职潮!马斯克亲信操盘xAI,千亿美元能填AGI野望?
  • 黄仁勋2小时反驳「AI泡沫帝国」论!英伟达将成全球首家十万亿市值公司
  • 云与AI,如何托举 Z 世代的创新野心
  • 北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
  • NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!
  • 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文
  • NeurIPS 2025 | 北大等提出C²Prompt:解耦类内与类间知识,破解联邦持续学习“双重遗忘”难题
  • InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”
  • 24.98万的理想i6,在特斯拉、小米、蔚来「后院」放了一把火
  • 小米 17 开售 5 分钟,破国产机销售纪录;Meta 研发机器人项目;国内发布「脑机接口标准」
  • Stability AI前CEO惊人预测:人类智力价值归零,只剩1000天!
  • 刚刚,奥特曼预言:人类「只剩」最后5年!
  • 免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」
  • 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」
  • 苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
  • 自动驾驶进入大模型时代,主机厂寻找「联合创始人」
  • DASFAA 2025 | 湖大等提出SCRA-VQA:给LLM一份“精装修”的图像描述,无需训练提升VQA性能
  • 复旦等揭秘机器人“大脑”安全漏洞:一张图就能让它“宕机”,攻击成功率76.2%
  • 苹果官方旗舰店也放假,商品不发货;腾讯推「老年打车」服务;车主酒驾,智能驾驶「报警」|极客早知道
  • 刚刚,ChatGPT Pulse上线!私人秘书不再是富人特权
  • 颠覆算力格局!全球首个星座级太空AI算力服务,在中国诞生
  • OpenAI 3万亿美元测试,AI首战44个行业人类专家!
  • JHU教授揭秘学术潜规则:普通博士如何打破鄙视链翻盘?
  • Hinton预言错了!年薪狂飙52万美元,AI没有「干掉」放射科医生
  • 168 元一年的「小红卡」,是小红书打破本地生活红海的钥匙
  • 当 5 亿玩家涌入 AI 的 3D 新世界
  • 普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
  • 博士申请 | 香港中文大学(深圳)冀晓强老师课题组招收人工智能全奖博士/硕士
  • 128k死穴被击穿!Amazon爆改长上下文:段内压缩快4×,推理不掉点还更准
  • AI 到底会不会做生意?1688 的答案让人惊喜
  • 找人不求人?Lessie 让「人脉玄学」变成算法游戏|AI 上新
  • 斯坦福推出VisualMimic:让机器人“眼观六路”,零样本完成复杂任务
  • 浙大发布RS3DBench:让遥感AI看懂3D世界,首个像素级对齐的大规模基准来了!
  • 小米 17 系列发布,4499 起;追觅「库里南」图片曝光;YU7 Max 成「百万最速」车
  • 刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
  • AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
  • Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步
  • 信息熵之后,清华提出状态熵!量化分析「系统智能性」的全新视角
  • 突发!Meta刚从OpenAI挖走了清华校友宋飏
  • 北京内推 | 中科院软件所数据科学研究中心招聘大语言模型算法实习生
  • 78条打穿1万条!上交大新范式告诉你:智能体训练靠“质”,不是靠“量”
  • KV缓存不再爆!清华姚期智团队重写注意力维度,长上下文更省更强 | NeurIPS 2025 Spotlight
  • 三款骁龙芯片曝光,高通谷歌联手打造「安卓 PC」时代
  • Instagram 月活破 30 亿,靠“短视频”和“私信”;2027款iPhone曝光;女子用ChatGPT选号中百万大奖,全部捐出
  • 一年4次迭代,狂堆GPU成真!微软AI冷液灌芯,散热暴涨3倍
  • 刚刚,阿里CEO吴泳铭发布「ASI宣言」:超级智能才是终局!
  • 前Meta工程师爆料:17人团队15个H-1B!一夜之间80%对手没了?
  • 秘塔AI放大招!「边想边搜边做」,内置20+智能体,想法一键实现
  • 震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失
  • 恶劣天气下的图像修复:南理工等提出LCDiff,让AI在雨雪雾天也能看得清
  • OCRBench v2 25年9月最新榜单发布!揭示多模态大模型文档智能真实水平
  • RL不再撒胡椒面!港科大 × 清华新作:只盯“规划token”,大模型推理力狂飙
  • NeurIPS 2025 | 甩掉文本CoT!FSDrive开启时空思维链,自动驾驶迈入视觉推理时代
  • 博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生
  • 3 天卖完今年所有产能,蔚来全新 ES8 如何实现逆风翻盘?
  • 超越 AGI,阿里剑指「超级智能」
  • Point-SSM:一种用于点云分析的极简状态空间模型,在医学点云任务上表现SOTA
  • 字节跳动OmniInsert炸场:无需掩码,任意物体“贴”进视频,效果碾压闭源SOTA!
  • ContextFlow:无需训练的视频编辑新范式,实现电影级魔改!
  • 忘了法拉利,一辆中国车正在改写游戏规则
  • 40亿投进去,换回了什么?全新问界M7的「值得」哲学
  • 华为问界新 M7,1 小时大定 3 万;李想:iPhone 17 顶配太丑,不买;防台风,腾讯「捆绑」QQ 企鹅塑像

Thinking Machines曝LoRA终极指南:10倍学习率,媲美全参微调



  新智元报道  

编辑:元宇
【新智元导读】LoRA能否与全参微调性能相当?在Thinking Machines的最新论文中,他们研究了LoRA与FullFT达到相近表现的条件。Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,同时也有助于我们更深入审视机器学习中的一些基本问题。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

今天,Thinking Machines重磅推出了它的第三篇论文《LoRA Without Regret》。

博客地址:https://thinkingmachines.ai/blog/lora/

论文由John Schulman与Thinking Machines其他人联合完成。

如今,最先进的大模型参数量已经超过一万亿,预训练数据量常常多达数十万亿Token。

如此庞大的参数对于基础模型性能的提升是必要的。

但这在后训练阶段就显得有些浪费了,这正是参数高效微调(PEFT)出现的原因。

最常用的方法是LoRA(低秩适配)。它的思路是不直接更新原始的巨大权重矩阵W,而是给它加上一个小小的修正项:

W′=W+γBA


这里的B和A是两个低秩矩阵,它们的参数数量远少于W,而γ是一个常数缩放因子。

换句话说,LoRA通过低维矩阵乘积来捕捉微调带来的更新。那么LoRA能否与完全微调性能相当?如果可以,又是在什么条件下?

Thinking Machines研究发现,只要把握几个关键细节,LoRA也可以与FullFT达到相近表现


LoRA的关键因素

在本文中,研究人员通过一系列监督微调与强化学习实验,探讨LoRA在何种条件下能与FullFT一样高效。

研究人员发现:

  • 在小到中等规模的指令微调和推理数据集上,LoRA与FullFT表现相同。

  • 对于超出LoRA容量的数据集,LoRA的表现劣于FullFT。

  • 在某些场景中,LoRA对大批量训练的容忍度低于FullFT。

  • 即便在小数据场景下,LoRA应用到所有权重矩阵(尤其是MLP和MoE层)时效果更佳。

  • 在强化学习中,即使是低秩LoRA,表现也与FullFT相当。

研究人员在Tulu3数据集和OpenThoughts3的一个子集上进行单轮训练,针对每个数据集和模型规模遍历了LoRA秩和学习率。

研究人员发现,FullFT与高秩LoRA的学习曲线相似,损失随训练步数对数线性下降。而中低秩LoRA会在某个与秩相关的阈值步数之后偏离最小损失曲线。

从直观上看,当适配器容量耗尽时,学习速度会放缓,这由秩决定。

通过绘制损失随学习率变化的曲线,研究人员确认学习率搜索覆盖了每个秩的最佳值,发现FullFT的最佳学习率比高秩LoRA低约10倍。


批大小效应

在训练神经网络时,我们不会一次把所有数据都丢进去,所以用批大小(batch size)来衡量每一批数据中包含多少个样本。

研究人员在实验中发现,在某些情况下,LoRA对大批量训练的容忍度低于FullFT。性能差距随批量增大而扩大,与秩无关。

实验人员使用了OpenThoughts3的一个10000样本的小型子集。

图3左图显示了在大批量下,LoRA(虚线)与FullFT(实线)的学习曲线始终存在差距。而在较小批量(32)下,这一差距更小且随时间缩小。

右图展示了最终损失随批量大小的变化。可以看到,随着批量增大,LoRA的损失与FullFT的差距逐渐拉大。

大批量下的学习差距似乎与秩无关,而是LoRA固有的特性。

研究人员认为其可能原因在于矩阵乘积参数化(BA)的优化动态不如完整矩阵(W)。


LoRA应用层研究

研究人员将LoRA应用于网络不同层,发现当把LoRA应用于所有层时,尤其是MLP(包括MoE)层时,效果要好得多。

实际上,把LoRA用在注意力矩阵上并没有比只用在MLP上更有优势。仅注意力的LoRA表现不佳,并不是因为参数更少。

在这个实验中,rank=256的仅注意力LoRA表现不如rank=128仅MLP LoRA,尽管它们的参数量差不多(见下表加粗数字对比)。

研究人员还在两个额外场景下做了类似的对比实验:

(1)在OpenThoughts3数据集的小子集上(rank=256)做监督学习;

(2)在MATH数据集上做强化学习。


在这两种情况下,仅注意力LoRA的表现依然不如仅MLP LoRA


强化学习

该实验的一个关键发现是:在用策略梯度算法做强化学习时,即使rank低至1,LoRA也能完全匹配全参数微调的学习效果。

图6中展示了在MATH数据集和GSM数据集上的学习率扫描结果,使用了各自常用的超参数。

研究人员采用了Llama-3.1-8B基座模型,发现LoRA展现出更宽的有效学习率范围,并能达到与全参数微调(黑线)相同的峰值性能。

为了进一步验证LoRA在推理强化学习中的有效性,研究人员还在DeepMath数据集上做了更大规模的实验。

研究人员观察到,在每个设定下选择最优学习率时,不同大小的LoRA与全参数微调的训练进展几乎完全一致。


设置LoRA超参数

LoRA采用的一个障碍在于必须选择合适的超参数,而这些超参数与为FullFT优化的并不相同。

研究人员采用了如下的LoRA参数化方式:

其中,r是LoRA秩,α是LoRA缩放因子,A、B是LoRA权重矩阵(秩为r)。在本文的实验中,研究人员采用α=32。

图9展示了在相同学习率下,不同秩在训练初期学习曲线的差异。


LoRA与FullFT的最优学习率比较

该实验表明,在相同的应用中,无论是监督学习还是强化学习,LoRA的最优学习率始终是FullFT的10倍。

这一点在性能(损失或奖励)随学习率变化的U形曲线中一再出现。

这说明可以更容易地把FullFT的学习率迁移到LoRA中。

研究人员目前还没有对这一观察给出充分的理论解释,但认为可以尝试从以下事实出发推导:LoRA的最优学习率与秩无关,而满秩LoRA可直接与FullFT对比。

在实证分析中,研究人员对14个不同的Llama和Qwen模型在Tulu3数据集上同时进行了LoRA和FullFT的学习率扫描。

通过这些扫描结果拟合了一个函数,能基于模型的隐层维度以及其来源(Llama或Qwen)来预测最优学习率:

在短期和长期训练中的学习率方面,LoRA的典型初始化方式会在有效学习率上隐式引入一个随时间变化的调度,这导致短期和长期训练表现出差异,且与FullFT相比,学习曲线形状也有所不同。

在训练开始时,B初始化为零。当B很小时,A的变化对适配器BA的影响几乎可以忽略。

随着B逐渐变大,A的更新对网络输出的影响开始增大,有效学习率会随着训练进程逐渐提升,因为B的规模逐渐接近A。

研究人员发现,在Tulu3和OpenThoughts数据集的完整训练结束时,B矩阵的谱范数比A矩阵更大。

这意味着在短期训练中,最优学习率应该设得更高。

初步证据表明,在短期(大约100步以内)训练时,LoRA最优倍数大约是FullFT的15倍,随着训练时间变长,收敛到前文提到的10倍。

在本文的研究中,研究人员发现LoRA与FullFT达到相近表现需要满足的两个条件:

条件1:LoRA应用于网络的所有层,尤其是包含大多数参数的 MLP/MoE(混合专家)层。 


条件2:在不受容量约束时,LoRA表现良好,即可训练参数的数量要多于需要学习的信息量。


当条件1满足时,训练一开始就会看到与FullFT相似的学习动态。随后,依据条件2,LoRA会持续呈现与FullFT相近的表现,直到开始触及容量上限为止。

Thinking Machines关注LoRA,旨在推动其更广泛地应用于各种按需定制的场景,也有助于帮助我们更深入地审视机器学习中的一些基本问题。

参考资料:
https://thinkingmachines.ai/blog/lora/%20
https://x.com/thinkymachines/status/1972708674100765006


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652631330&amp;idx=2&amp;sn=50655b69063553268c0043fa818b0caf&amp;chksm=f052ba12d41f7ffbcabcf3bfe36b73080d600875792cf7295d04b0317ed87a04a28af4bf7287&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/1j3HynJNFY&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们