原创 让你更懂AI的 2025-09-30 14:03 北京
实验曲线揭开真相,玄学调参终结
打平全参,还是效率掉队?这是围绕 LoRA 最大的争议。Thinking Machines 团队通过系统化实验与工程级配方,首次证明:在后训练的典型规模下,LoRA 并不是玄学调参,而是能被科学刻画、可复现的稳定方案。
打平全参,还是效率掉队?这是围绕 LoRA 最大的争议。Thinking Machines 团队通过系统化实验与工程级配方,首次证明:在后训练的典型规模下,LoRA 并不是玄学调参,而是能被科学刻画、可复现的稳定方案。
LoRA 一直被誉为参数高效微调的“王牌”方案,但它究竟能否在后训练场景里真正打平全参微调(Full Fine-Tuning, FullFT)?这个问题困扰了学术界与工业界多年:有人说 LoRA 只是“小打小闹”,也有人坚信它足以支撑产业级对齐。真相却始终没有一个被普遍接受的结论。
Thinking Machines 团队近期抛出了一篇极具分量的长文,把这个悬而未决的问题彻底讲清楚了:LoRA 何时能与 FullFT 等效?等效的边界在哪里?跨出边界又会发生什么?
更重要的是,他们不是停留在理论推演,而是给出了系统化实验、数学直觉和工程配方,首次把 LoRA 的“无悔区”划定清楚。对任何在做后训练(post-training)的团队来说,这份结论几乎就是一份可直接照抄的实践指南。
为什么必须重估LoRA?
大模型的预训练继续沿着规模曲线狂飙:参数万亿级、预训练语料数十万亿 token 已经不是新闻。相比之下,后训练的数据域更窄、规模更小,把“兆比特的修正”写回“太比特的权重”,直觉上就觉得浪费,这正是 PEFT(参数高效微调)方法兴起的根源。
其中最具代表性的就是 LoRA:不动原始权重 W,只训练一个低秩增量并在推理时与 W 合并。LoRA 的直观优势包括:更低的训练显存与状态开销、天然支持多租(多 adapter 共享一底模)、更易于部署与迁移——这在 vLLM、SGLang 等现代推理引擎里已经工程化。
问题也一直犀利:LoRA 真的能打平 FullFT 吗?在什么条件下?
过往文献给出过“不行”的证据:在类预训练的超大规模继续预训练场景里,LoRA 容量被“撑爆”,表现不如 FullFT;但在后训练典型数据规模里,LoRA 的容量似乎足够,却没有严格的样本效率与算力效率对齐证明。这篇新文章补上了这块拼图。
数学底座:LoRA的参数化与“容量观”
注:以下公式化解读与“容量观”是基于 LoRA 原始论文和常见工程直觉的个人总结,作者原文未直接给出,但与其实验现象高度吻合。
LoRA 的基本形式是把每个权重矩阵 写成:
其中 是秩(rank), 是缩放系数。LoRA 的新增参数量近似为:
显著小于全参的 。这解释了它在训练显存、优化器状态与多租部署上的成本优势。
更关键的是“容量观”:将 rank 视作“可写入信息量的通道数”。当数据携带的信息总量不超过 LoRA 的可写容量时(这在后训练常常成立),LoRA 就有机会在损失下降速度与最终可达损失上与 FullFT 打平。
反之,当数据规模持续上涨、超出 LoRA 的可承载范围时,并不会突然“卡死”,而是以更慢的样本效率继续学。后文的实验会把这件事实证化。
实验设计:把“玄学”变成可复现的曲线
为了回答“LoRA 何时打平 FullFT”,文章做了两类关键选择:
其一,度量选择:在监督学习(SFT)里,以对数损失(log loss)而非抽样评测作为统一度量,以获得跨数据集/模型的一致性与明确的缩放规律;在强化学习(RL)里直接以正确率/回报看收敛峰值。
其二,变量控制:
rank 横跨 3 个数量级(1 到 512),并做学习率(LR)全面扫描以剔除“吃了超参红利”的误判;
模型覆盖 Llama-3.x 与 Qwen3(含 MoE 结构),避免“只在一个家族成立”的偶然;
数据选用 Tulu-3(指令跟随)、OpenThoughts-3(推理)两大开放谱系,外加数学类 RL 任务(GSM8K、MATH)。
实验风格非常“标定化”:同一训练步数域看损失 vs. 步数的对数线性关系、同一 rank 下扫 LR 看最优点;这使结论足够“可复现、可外推”。
LoRA vs FullFT:五个关键发现
SFT的“小-中数据段”,LoRA ≈ FullFT
先看最“直球”的结果:在指令调优与推理数据的典型规模上,高秩 LoRA 的学习曲线与 FullFT 贴合——损失随 线性下降;当 rank 降到一定阈值,曲线开始“掉队”,掉队步点与 rank 呈相关。这正是“容量观”的曲线证据。
▲ 图1. 容量足够时,LoRA与FullFT的样本效率一致
这意味着:只要你的数据不“爆仓”LoRA 的可写容量,LoRA 完全可作为 FullFT 的同等替代。这为企业中“多租场景 + 快速迭代”提供了坚实理由——你不必为“省参省钱”付出“体验打折”的代价。
学习率与“1/r 前因子”,LoRA的“宽容窗”更大
文章给出一个漂亮的现象与解释:LoRA 的最优学习率比 FullFT 高约 10 倍(在 Tulu-3 的实验中清晰可见),且 LoRA 的最优学习率在不同 rank 间近似不变(rank=4 到 512 的变化 <2×),只有极低秩如 rank=1 时略降。
原因来自 LoRA 参数化里的 1/r 前因子与初始化/缩放不变性,使得有效步长对 r 不敏感。
▲ 图2. LoRA的最优LR与rank近似解耦,且较FullFT偏大
这对工程很关键:别用 FullFT 的“保守 LR”去训 LoRA。如果你照搬 FullFT 的 LR,可能直接把 LoRA 的“速度档”按掉了。与近年的理论/实证观察(如 LoRA+、“LoRA learns less & forgets less”中对 LR 比例的讨论)也可相互印证。
大Batch下,LoRA的“耐受度”更差(与rank无关)
在 Batch Size 扫描中,文章观察到:LoRA 在大 batch 下的损失惩罚强于 FullFT,且与 rank 基本无关——这更像是“BA 乘积参数化”导致的优化动力学差异,而非“参数量不够”。但好消息是:两者的最优点都在较小 batch,因此在实际配方里避开“大 batch 迷恋”即可。
▲ 图3. 大batch惩罚是LoRA的“动力学属性”,非rank能补救
LoRA要“插哪儿”?——MLP/MoE优先,Attention-only不香了
这是最容易被忽略、却最影响最终表现的“选座位”问题。文章系统评估了“只插注意力层”“只插 MLP(含 MoE)”与“全层插”,得到清晰结论:
Attention-only 显著不如 MLP-only;
MLP-only 与全层插表现近似;
即便给注意力层更高的 rank 来“补参数量”,Attention-only 仍落后。
▲ 图4. 把LoRA主要预算投给MLP/MoE层,性价比最高
参数量参考(以 Llama-3.1-8B 为例):
▲ 表1. 注意力-only的r=256也未能追上MLP-only的r=128;参数量“持平”不等于效果持平。
到了RL,LoRA与全参再次打平,而且rank可以很小
把目光投向数学推理类 RL。文章采用极简策略梯度(带重要性采样修正),目标可以写成:
并使用类似 GRPO 的分组均值基线(每题多采样、减去组内平均回报),在 GSM8K/MATH 上做了学习率扫描。图像很干脆:LoRA 的可行 LR 区间更宽,峰值表现与 FullFT 重合——即便 rank=1 也能打平。
▲ 图5. RL的“信息密度”低,使LoRA的低容量也足以容纳
文章还给出一个信息论视角:SFT 每个样本大致记录 比特的信息;而策略梯度里,优势函数每个 episode 只有 比特监督。当每题动辄上千 token 时,RL 的单位 token 可吸收信息量 ≈ SFT 的千分之一——这解释了为什么 RL 对 rank 的需求极低。
另外,作者刻意不用 Qwen 家族“带先验数学能力”的基座来做 RL(选用 Llama-3.1-8B base),以避免“预训练偏置”污染对比。这个细节展示了实验设计的克制。
工程配方与边界
把“无悔区”写成工程配方
1. 数据规模 × rank:先预估“可写信息量”
把 LoRA 看作“低维增量存储器”,rank r 就是通道数。经验上,你可以用下面的粗略配平公式做首轮估算(用来定 r 的级别):
其中 K 是与你的模型族/任务相关的常数。直观做法:把 rank 当作“和数据量成正比”的旋钮,先以“高一点的 r”起步,观察损失-步数曲线是否出现“掉队”。只要曲线与 FullFT 的最小损失轨迹贴合,说明你仍在“无悔区”。
2. 学习率:不要把FullFT的LR硬搬过来
在 SFT 场景下,把 LoRA 的最优 LR 设为 FullFT 的约 10 倍起步,再做窄域扫描;在 rank 从 4 到 512 的区间里,最优 LR 变化很小,因此你可以把 LR 选型与 rank 解耦——这会极大简化超参搜索。
3. Batch Size:远离“越大越好”的误区
LoRA 的大 batch 惩罚来自乘积参数化的优化动力学,不是单靠提高 rank 就能抹平。优先使用小-中等 batch,把算力预算投入到步数与数据清洗上。
4. 插层策略:先插MLP/MoE,再谈Attention
给定相同的参数预算,把 LoRA 主要预算放在 MLP 与 MoE 层,效果与“全层插”相当;Attention-only 不推荐,即便提高 rank 也常常追不回来。对 MoE,按“总 rank ÷ 激活专家数”给每个专家分配子 rank,可保持“LoRA 参数占全参之比”恒定。
5. RL:大胆用小rank
在 RL 的数学/推理任务上,rank 极小(乃至 1)仍能与 FullFT 打平。把时间投入到数据生成、奖励设计与采样策略上,比纠结 rank 更划算。
边界与反例:何时别用LoRA?
类预训练(继续预训练)的大规模数据域:此时你是在“重新写百科”,LoRA 的容量很快不够用,表现将劣于 FullFT。换句话说,如果你的目标是全面迁移底模表征,请直上 FullFT。
强依赖极大 batch 的流水线:如果你的训练基础设施/组织流程强绑定在“大 batch 高吞吐”,而难以调小,LoRA 的优化“耐受度”会成为问题。
只想在注意力里“抠点小钱”:Attention-only 的 LoRA 已被反复证实性价比不高,这不是“算错参数量”的问题,而是动力学差异。
给团队的“落地清单”
把上面的配方织成一条从 0→1 的路径,避免 checklist 式罗列:
先做问题定界:如果你的目标是把一个 8B/14B 的开源底模,在某个具体的产品域里“对齐到能用”,你的训练 token 总量大多在百万到千万级,这正落在 LoRA 的无悔区。
别急着选 rank,先把数据去噪与度量统一做好:用 log loss 作为主度量,这会让你后续跨数据、跨模型对齐变得简单。
接着上小规模探索:选择 MLP/MoE 插层的 LoRA 并给一个稍显“奢侈”的 rank 起步(比如你原本想用 64,就先用 128),LR 从 FullFT 的 10× 起扫,batch 保持在“中小”,每跑完一段步数就把曲线压到 FullFT 基线下对比。
只要曲线不掉队,你就在无悔区——可以继续“砍 rank、砍显存、砍成本”。
如果你发现曲线开始掉队,不要立刻把 rank 拉满,先看是不是你追求了过大的 batch;如果 batch 已经不大,再温和提高 rank。
至于 RL,大胆选小 rank,把精力放到“奖励/采样”的细节:比如按题目做组内均值基线、在同一题上多采多比,这些细节对收敛峰值的影响,远比你从 rank=8 升到 64 要大得多。
方法插曲:几行公式把直觉再压实一点
1. LoRA参数与显存(优化器状态)
若以 Adam 为例,FullFT 在训练时需要保存权重、梯度、两阶矩(常见为 fp32),而 LoRA 只为 A,B 维护这些状态。对应到单层的近似显存比:
这解释了“LoRA 训练布局接近推理布局”的现实便利:同一张卡,训练就不再需要“成倍放大”。
2. “1/r 前因子”与最优LR的秩不敏感
把 BA 看成对 W 的分解更新,在常见初始化/缩放下,梯度能量随 r 变化的影响被缩放抵消,于是“有效步长”对 r 不敏感。实证上,你会看到 rank=4→512 的最优 LR 只在 <2× 里摆动。这就是“先定 LR、后收 r”的依据。
3. RL的“信息密度”
把一次 episode 的监督近似为对单个标量回报的估计与分配,每题只含 O(1) 比特;而 SFT 的每题通常为成百上千 token 的逐 token 监督,比特密度高三个数量级。这给了 LoRA 在 RL 上“以极小 rank 打平”的自由度。
学术对比与总结
对照与延伸:把新结论放进更大的谱系
把这篇文章与 LoRA 经典论文、LoRA+ 等工作并置,你会发现一条清晰的逻辑链:
1)Hu et al., 2021 给出 LoRA 的低秩增量范式与显存/部署优越性。
2)Biderman et al., 2024 揭示在继续预训练等大数据域里,LoRA 的学习能力确实弱于 FullFT,并显示 LoRA 在“保持原任务性能”上有优势(更不易遗忘)。
3)Thinking Machines(2025) 则把后训练这个更普适的产业场景讲透:LoRA 的“无悔区”存在,且范围很大;一旦出圈,表现为效率下降而非突然崩塌。
这三点拼起来,给了我们何时用 LoRA、何时上 FullFT 的一套可操作“交通规则”。
把话说到用户价值:学术与工业各得其所
对学术侧:这篇工作主张用统一的 log-loss 标定和系统的 rank×LR×batch 网格,去刻画“LoRA 与 FullFT 的相对效率”,把“玄学经验”变成可拟合、可外推的曲线族。这意味着接下来我们可以谈“LoRA 的缩放律”,而不是只谈“成功案例”。
对工业侧:你可以据此建立标准化后训练流水线:
第一阶段用高秩 LoRA + 中小 batch + 10×LR快速逼近 FullFT 基线;
第二阶段按损失轨迹是否“掉队”去收 rank、收显存;
第三阶段如果要做 RL,对 rank 做极限压缩,把精力投向奖励函数、采样策略与数据流。
这是一条成本敏感、组织友好、改动最小的路径。
与外部生态的对焦(模型与数据)
文章实验覆盖 Llama-3.x 与 Qwen3(含 MoE),数据涉及 Tulu-3 与 OpenThoughts-3。这组选择让结论具备跨模型族、跨任务域的外推潜力;同时也提醒我们:如果你换成另一个家族(比如代码/多模态专长模型),请复刻同样的“标定流程”,别只搬配方。
相关资料与技术报告可参考:
LoRA Without Regret — Thinking Machines 博文 (2025)
https://thinkingmachines.ai/blog/lora
LoRA 原始论文:Hu et al., 2021
https://arxiv.org/abs/2106.09685
LoRA Learns Less and Forgets Less — Biderman et al., 2024:
https://arxiv.org/abs/2405.07863
Punica: 多 LoRA adapter 推理服务
https://arxiv.org/abs/2310.14022
Tulu-3 技术报告 / 模型页
https://huggingface.co/allenai/tulu-3-8x22b
OpenThoughts-3 技术报告 / 数据集
https://huggingface.co/datasets/OpenThoughts/OpenThoughts-3
Qwen3 官方技术报告 / 模型库
Llama-3.x 官方模型与 release notes
https://ai.meta.com/research/publications/llama-3-technical-report/
把“无悔区”当作能力边界来运营
这篇文章给 LoRA“正名”的地方在于:它没有宣称 LoRA 万能,而是明确画出一块“无悔区”——后训练的典型数据规模 + 合适的 rank + 中小 batch + 优先插 MLP/MoE + LR 体系与 FullFT 解耦。
在这块区域里,LoRA 与 FullFT 的样本效率与峰值表现等效;出了边界,表现退化为效率下降而非断崖。对于要在多租场景里飞快迭代、在异构集群里控住成本的团队而言,这是一份可以立刻落地的工程配方。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·