ToolsAi

原创让你更懂AI的 2025-09-30 14:03 北京

实验曲线揭开真相，玄学调参终结

打平全参，还是效率掉队？这是围绕 LoRA 最大的争议。Thinking Machines 团队通过系统化实验与工程级配方，首次证明：在后训练的典型规模下，LoRA 并不是玄学调参，而是能被科学刻画、可复现的稳定方案。

LoRA 一直被誉为参数高效微调的“王牌”方案，但它究竟能否在后训练场景里真正打平全参微调（Full Fine-Tuning, FullFT）？这个问题困扰了学术界与工业界多年：有人说 LoRA 只是“小打小闹”，也有人坚信它足以支撑产业级对齐。真相却始终没有一个被普遍接受的结论。

Thinking Machines 团队近期抛出了一篇极具分量的长文，把这个悬而未决的问题彻底讲清楚了：LoRA 何时能与 FullFT 等效？等效的边界在哪里？跨出边界又会发生什么？

更重要的是，他们不是停留在理论推演，而是给出了系统化实验、数学直觉和工程配方，首次把 LoRA 的“无悔区”划定清楚。对任何在做后训练（post-training）的团队来说，这份结论几乎就是一份可直接照抄的实践指南。

为什么必须重估LoRA？

大模型的预训练继续沿着规模曲线狂飙：参数万亿级、预训练语料数十万亿 token 已经不是新闻。相比之下，后训练的数据域更窄、规模更小，把“兆比特的修正”写回“太比特的权重”，直觉上就觉得浪费，这正是 PEFT（参数高效微调）方法兴起的根源。

其中最具代表性的就是 LoRA：不动原始权重 W，只训练一个低秩增量并在推理时与 W 合并。LoRA 的直观优势包括：更低的训练显存与状态开销、天然支持多租（多 adapter 共享一底模）、更易于部署与迁移——这在 vLLM、SGLang 等现代推理引擎里已经工程化。

问题也一直犀利：LoRA 真的能打平 FullFT 吗？在什么条件下？

过往文献给出过“不行”的证据：在类预训练的超大规模继续预训练场景里，LoRA 容量被“撑爆”，表现不如 FullFT；但在后训练典型数据规模里，LoRA 的容量似乎足够，却没有严格的样本效率与算力效率对齐证明。这篇新文章补上了这块拼图。

数学底座：LoRA的参数化与“容量观”

注：以下公式化解读与“容量观”是基于 LoRA 原始论文和常见工程直觉的个人总结，作者原文未直接给出，但与其实验现象高度吻合。

LoRA 的基本形式是把每个权重矩阵写成：

其中是秩（rank），是缩放系数。LoRA 的新增参数量近似为：

显著小于全参的。这解释了它在训练显存、优化器状态与多租部署上的成本优势。

更关键的是“容量观”：将 rank 视作“可写入信息量的通道数”。当数据携带的信息总量不超过 LoRA 的可写容量时（这在后训练常常成立），LoRA 就有机会在损失下降速度与最终可达损失上与 FullFT 打平。

反之，当数据规模持续上涨、超出 LoRA 的可承载范围时，并不会突然“卡死”，而是以更慢的样本效率继续学。后文的实验会把这件事实证化。

实验设计：把“玄学”变成可复现的曲线

为了回答“LoRA 何时打平 FullFT”，文章做了两类关键选择：

其一，度量选择：在监督学习（SFT）里，以对数损失（log loss）而非抽样评测作为统一度量，以获得跨数据集/模型的一致性与明确的缩放规律；在强化学习（RL）里直接以正确率/回报看收敛峰值。

其二，变量控制：

rank 横跨 3 个数量级（1 到 512），并做学习率（LR）全面扫描以剔除“吃了超参红利”的误判；
模型覆盖 Llama-3.x 与 Qwen3（含 MoE 结构），避免“只在一个家族成立”的偶然；
数据选用 Tulu-3（指令跟随）、OpenThoughts-3（推理）两大开放谱系，外加数学类 RL 任务（GSM8K、MATH）。

实验风格非常“标定化”：同一训练步数域看损失 vs. 步数的对数线性关系、同一 rank 下扫 LR 看最优点；这使结论足够“可复现、可外推”。

LoRA vs FullFT：五个关键发现

SFT的“小-中数据段”，LoRA ≈ FullFT

先看最“直球”的结果：在指令调优与推理数据的典型规模上，高秩 LoRA 的学习曲线与 FullFT 贴合——损失随线性下降；当 rank 降到一定阈值，曲线开始“掉队”，掉队步点与 rank 呈相关。这正是“容量观”的曲线证据。

▲ 图1. 容量足够时，LoRA与FullFT的样本效率一致

这意味着：只要你的数据不“爆仓”LoRA 的可写容量，LoRA 完全可作为 FullFT 的同等替代。这为企业中“多租场景 + 快速迭代”提供了坚实理由——你不必为“省参省钱”付出“体验打折”的代价。

学习率与“1/r 前因子”，LoRA的“宽容窗”更大

文章给出一个漂亮的现象与解释：LoRA 的最优学习率比 FullFT 高约 10 倍（在 Tulu-3 的实验中清晰可见），且 LoRA 的最优学习率在不同 rank 间近似不变（rank=4 到 512 的变化 <2×），只有极低秩如 rank=1 时略降。

原因来自 LoRA 参数化里的 1/r 前因子与初始化/缩放不变性，使得有效步长对 r 不敏感。

▲ 图2. LoRA的最优LR与rank近似解耦，且较FullFT偏大

这对工程很关键：别用 FullFT 的“保守 LR”去训 LoRA。如果你照搬 FullFT 的 LR，可能直接把 LoRA 的“速度档”按掉了。与近年的理论/实证观察（如 LoRA+、“LoRA learns less & forgets less”中对 LR 比例的讨论）也可相互印证。

大Batch下，LoRA的“耐受度”更差（与rank无关）

在 Batch Size 扫描中，文章观察到：LoRA 在大 batch 下的损失惩罚强于 FullFT，且与 rank 基本无关——这更像是“BA 乘积参数化”导致的优化动力学差异，而非“参数量不够”。但好消息是：两者的最优点都在较小 batch，因此在实际配方里避开“大 batch 迷恋”即可。

▲ 图3. 大batch惩罚是LoRA的“动力学属性”，非rank能补救

LoRA要“插哪儿”？——MLP/MoE优先，Attention-only不香了

这是最容易被忽略、却最影响最终表现的“选座位”问题。文章系统评估了“只插注意力层”“只插 MLP（含 MoE）”与“全层插”，得到清晰结论：

Attention-only 显著不如 MLP-only；
MLP-only 与全层插表现近似；
即便给注意力层更高的 rank 来“补参数量”，Attention-only 仍落后。

▲ 图4. 把LoRA主要预算投给MLP/MoE层，性价比最高

参数量参考（以 Llama-3.1-8B 为例）：

▲ 表1. 注意力-only的r=256也未能追上MLP-only的r=128；参数量“持平”不等于效果持平。

到了RL，LoRA与全参再次打平，而且rank可以很小

把目光投向数学推理类 RL。文章采用极简策略梯度（带重要性采样修正），目标可以写成：

并使用类似 GRPO 的分组均值基线（每题多采样、减去组内平均回报），在 GSM8K/MATH 上做了学习率扫描。图像很干脆：LoRA 的可行 LR 区间更宽，峰值表现与 FullFT 重合——即便 rank=1 也能打平。

▲ 图5. RL的“信息密度”低，使LoRA的低容量也足以容纳

文章还给出一个信息论视角：SFT 每个样本大致记录比特的信息；而策略梯度里，优势函数每个 episode 只有比特监督。当每题动辄上千 token 时，RL 的单位 token 可吸收信息量 ≈ SFT 的千分之一——这解释了为什么 RL 对 rank 的需求极低。

另外，作者刻意不用 Qwen 家族“带先验数学能力”的基座来做 RL（选用 Llama-3.1-8B base），以避免“预训练偏置”污染对比。这个细节展示了实验设计的克制。

工程配方与边界

把“无悔区”写成工程配方

1. 数据规模 × rank：先预估“可写信息量”

把 LoRA 看作“低维增量存储器”，rank r 就是通道数。经验上，你可以用下面的粗略配平公式做首轮估算（用来定 r 的级别）：

其中 K 是与你的模型族/任务相关的常数。直观做法：把 rank 当作“和数据量成正比”的旋钮，先以“高一点的 r”起步，观察损失-步数曲线是否出现“掉队”。只要曲线与 FullFT 的最小损失轨迹贴合，说明你仍在“无悔区”。

2. 学习率：不要把FullFT的LR硬搬过来

在 SFT 场景下，把 LoRA 的最优 LR 设为 FullFT 的约 10 倍起步，再做窄域扫描；在 rank 从 4 到 512 的区间里，最优 LR 变化很小，因此你可以把 LR 选型与 rank 解耦——这会极大简化超参搜索。

3. Batch Size：远离“越大越好”的误区

LoRA 的大 batch 惩罚来自乘积参数化的优化动力学，不是单靠提高 rank 就能抹平。优先使用小-中等 batch，把算力预算投入到步数与数据清洗上。

4. 插层策略：先插MLP/MoE，再谈Attention

给定相同的参数预算，把 LoRA 主要预算放在 MLP 与 MoE 层，效果与“全层插”相当；Attention-only 不推荐，即便提高 rank 也常常追不回来。对 MoE，按“总 rank ÷ 激活专家数”给每个专家分配子 rank，可保持“LoRA 参数占全参之比”恒定。

5. RL：大胆用小rank

在 RL 的数学/推理任务上，rank 极小（乃至 1）仍能与 FullFT 打平。把时间投入到数据生成、奖励设计与采样策略上，比纠结 rank 更划算。

边界与反例：何时别用LoRA？

类预训练（继续预训练）的大规模数据域：此时你是在“重新写百科”，LoRA 的容量很快不够用，表现将劣于 FullFT。换句话说，如果你的目标是全面迁移底模表征，请直上 FullFT。

强依赖极大 batch 的流水线：如果你的训练基础设施/组织流程强绑定在“大 batch 高吞吐”，而难以调小，LoRA 的优化“耐受度”会成为问题。

只想在注意力里“抠点小钱”：Attention-only 的 LoRA 已被反复证实性价比不高，这不是“算错参数量”的问题，而是动力学差异。

给团队的“落地清单”

把上面的配方织成一条从 0→1 的路径，避免 checklist 式罗列：

先做问题定界：如果你的目标是把一个 8B/14B 的开源底模，在某个具体的产品域里“对齐到能用”，你的训练 token 总量大多在百万到千万级，这正落在 LoRA 的无悔区。

别急着选 rank，先把数据去噪与度量统一做好：用 log loss 作为主度量，这会让你后续跨数据、跨模型对齐变得简单。

接着上小规模探索：选择 MLP/MoE 插层的 LoRA 并给一个稍显“奢侈”的 rank 起步（比如你原本想用 64，就先用 128），LR 从 FullFT 的 10× 起扫，batch 保持在“中小”，每跑完一段步数就把曲线压到 FullFT 基线下对比。

只要曲线不掉队，你就在无悔区——可以继续“砍 rank、砍显存、砍成本”。

如果你发现曲线开始掉队，不要立刻把 rank 拉满，先看是不是你追求了过大的 batch；如果 batch 已经不大，再温和提高 rank。

至于 RL，大胆选小 rank，把精力放到“奖励/采样”的细节：比如按题目做组内均值基线、在同一题上多采多比，这些细节对收敛峰值的影响，远比你从 rank=8 升到 64 要大得多。

方法插曲：几行公式把直觉再压实一点

1. LoRA参数与显存（优化器状态）

若以 Adam 为例，FullFT 在训练时需要保存权重、梯度、两阶矩（常见为 fp32），而 LoRA 只为 A,B 维护这些状态。对应到单层的近似显存比：

这解释了“LoRA 训练布局接近推理布局”的现实便利：同一张卡，训练就不再需要“成倍放大”。

2. “1/r 前因子”与最优LR的秩不敏感

把 BA 看成对 W 的分解更新，在常见初始化/缩放下，梯度能量随 r 变化的影响被缩放抵消，于是“有效步长”对 r 不敏感。实证上，你会看到 rank=4→512 的最优 LR 只在 <2× 里摆动。这就是“先定 LR、后收 r”的依据。

3. RL的“信息密度”

把一次 episode 的监督近似为对单个标量回报的估计与分配，每题只含 O(1) 比特；而 SFT 的每题通常为成百上千 token 的逐 token 监督，比特密度高三个数量级。这给了 LoRA 在 RL 上“以极小 rank 打平”的自由度。

学术对比与总结

对照与延伸：把新结论放进更大的谱系

把这篇文章与 LoRA 经典论文、LoRA+ 等工作并置，你会发现一条清晰的逻辑链：

1）Hu et al., 2021 给出 LoRA 的低秩增量范式与显存/部署优越性。

2）Biderman et al., 2024 揭示在继续预训练等大数据域里，LoRA 的学习能力确实弱于 FullFT，并显示 LoRA 在“保持原任务性能”上有优势（更不易遗忘）。

3）Thinking Machines（2025） 则把后训练这个更普适的产业场景讲透：LoRA 的“无悔区”存在，且范围很大；一旦出圈，表现为效率下降而非突然崩塌。

这三点拼起来，给了我们何时用 LoRA、何时上 FullFT 的一套可操作“交通规则”。

把话说到用户价值：学术与工业各得其所

对学术侧：这篇工作主张用统一的 log-loss 标定和系统的 rank×LR×batch 网格，去刻画“LoRA 与 FullFT 的相对效率”，把“玄学经验”变成可拟合、可外推的曲线族。这意味着接下来我们可以谈“LoRA 的缩放律”，而不是只谈“成功案例”。

对工业侧：你可以据此建立标准化后训练流水线：

第一阶段用高秩 LoRA + 中小 batch + 10×LR快速逼近 FullFT 基线；
第二阶段按损失轨迹是否“掉队”去收 rank、收显存；
第三阶段如果要做 RL，对 rank 做极限压缩，把精力投向奖励函数、采样策略与数据流。

这是一条成本敏感、组织友好、改动最小的路径。

与外部生态的对焦（模型与数据）

文章实验覆盖 Llama-3.x 与 Qwen3（含 MoE），数据涉及 Tulu-3 与 OpenThoughts-3。这组选择让结论具备跨模型族、跨任务域的外推潜力；同时也提醒我们：如果你换成另一个家族（比如代码/多模态专长模型），请复刻同样的“标定流程”，别只搬配方。

动态列表

LoRA到底能否媲美全参？Thinking Machines用实验曲线划出「无悔区」

打平全参，还是效率掉队？这是围绕 LoRA 最大的争议。Thinking Machines 团队通过系统化实验与工程级配方，首次证明：在后训练的典型规模下，LoRA 并不是玄学调参，而是能被科学刻画、可复现的稳定方案。

LoRA要“插哪儿”？——MLP/MoE优先，Attention-only不香了

到了RL，LoRA与全参再次打平，而且rank可以很小

类别

资源

联系我们