ToolsAi

论文标题：Language Models Resist Alignment: Evidence From Data Compression
论文链接：https://arxiv.org/pdf/2406.06144
项目地址：https://pku-lm-resist-alignment.github.io

尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力，但一个根本性问题仍未被真正解决：

这些 AI 模型是否真正理解人类的指令与意图？

当前大模型研究的主流观点认为，仅通过「99% 的预训练 + 1% 的后训练」便可使得大模型（LLM、VLM、VLA）被对齐。但，大模型真的能够被对齐吗？

近日，北京大学人工智能研究院研究员、北京智源大模型安全项目负责人杨耀东研究团队「Language Models Resist Alignment: Evidence From Data Compression」的研究荣获了 ACL 2025 年度最佳论文奖。

该论文首次从理论与实验层面系统性揭示：大模型并非可以任意塑造的「白纸」，其参数结构中存在一种「弹性」机制 —— 该机制源自预训练阶段，具备驱动模型分布回归的结构性惯性，使得模型在微调后仍可能「弹回」预训练状态，进而抵抗人类赋予的新指令，导致模型产生抗拒对齐的行为。

这意味着对齐的难度远超预期，后训练（Post-training）所需的资源与算力可能不仅不能减少，反而需要与预训练阶段相当，甚至更多。

论文的（独立）通讯作者为杨耀东博士，现任北京大学人工智能研究院研究员、北京智源大模型安全项目负责人、北大 - 灵初智能联合实验室首席科学家，他的研究方向为智能体交互学习与对齐，科研领域涵盖强化学习、AI 对齐、具身智能。发表 AI 领域顶会顶刊论文一百余篇，谷歌引用过万次，获得最佳论文 / 入围奖三次。论文的第一作者均为杨耀东课题组成员，包括：吉嘉铭，王恺乐，邱天异，陈博远，周嘉懿。合作者包括智源研究院安全中心研究员戴俊韬博士以及北大计算机学院刘云淮教授。

ICML 2025 Tutorial「Alignment Methods for Language Models」。本讲习班由北京智源大模型安全中心汪明志与北京大学杨耀东联合主讲，围绕基于奖励模型、无奖励模型、通用偏好模型和验证器框架四个维度，系统阐述对齐方法的理论基础、实践要点与最新挑战。完整录像、讲义发布于项目主页：

https://sites.google.com/view/icml-2025-tutorial-alignment

论文指出：模型规模越大、预训练越充分，其弹性越强，对齐时发生回弹的风险也越高。换言之，目前看似有效的对齐方法可能仅停留在「表面」、「浅层」，要实现深入模型内部机制的稳健对齐仍任重道远。

这一发现对 AI 安全与对齐提出了严峻挑战：模型可能不仅「学不动」，甚至可能「装作学会了」，这意味着当前 LLMs、VLMs 及 VLAs 的预训练与后训练微调对齐过程面临新的难题。

ACL 2025 审稿人及大会主席高度认可该项研究。一致认为，论文提出的「弹性」概念突破性地揭示了大语言模型在对齐过程中的抵抗与回弹机制，为长期困扰该领域的「对齐脆弱性」问题提供了新的理论视角与坚实基础。领域主席则进一步指出，论文在压缩理论、模型扩展性与安全对齐之间搭建起桥梁，不仅实证扎实、理论深入，更具深远的治理和安全启发意义。

大模型为何难以对齐？

人工智能对齐（AI Alignment）旨在让人工智能系统行为符合人类意图和价值观，是当前 AI 安全研究的核心议题。例如，OpenAI 提出的人类反馈强化学习方法（RLHF），试图通过人类偏好微调提升模型性能。对齐方法是通用模型转向专用模型的核心技术路径之一。然而，这些后训练方法并不能从根本上消除模型偏见，也难以保障模型真正实现对齐。

OpenAI 与 Anthropic 发现，大模型为了维持自身输出偏好，可能在训练过程中表现出「阳奉阴违」的行为。为避免被关闭或重新训练，模型可能假装迎合训练者设定的奖励目标，实则放大其自身的错位目标（Misalignment Objective），进而导致欺骗性对齐（Deceptive Alignment）现象 [1][2]；甚至，仅需数十条有害样本，便可能使原本经过精细安全对齐的模型重新变得不安全。

模型对齐为何如此困难？为何模型会偏离训练者设定的目标？其内部是否存在阻碍对齐的特殊属性？围绕「大模型能否被对齐」这一核心问题：

北京大学杨耀东课题组研究发现，语言模型呈现出「弹性」特质，主要包括两个方面：抵抗性 —— 预训练模型倾向保留原始分布；回弹性 —— 对齐程度越深，模型在反向微调中越快回归预训练分布。

团队通过压缩定理系统性地建模语言模型的训练与对齐过程，阐述了语言模型的压缩协议，以探索其训练与对齐机制。理论分析表明，模型在不同数据集上的压缩率变化与数据集规模成反比，呈现出类似「胡克定律」的行为模式，并在多种大语言模型上通过实验观察到一致的抵抗性与回弹性现象。这进一步凸显了「弹性」现象的普遍性，表明实现稳健且深层次对齐亟需深入模型内部机制的对齐方法。

为促进社区进一步研究模型对齐中的抵抗现象，论文作者已开源研究所用模型权重与全部实验代码。

模型是如何抗拒对齐的？从负反馈机制说起

负反馈机制是一种普遍存在于自然和工程系统中的调节原理，用以维持系统稳定、减少异常波动。从物理学中的弹簧到化学中的勒夏特列原理，各类系统均通过「抵抗变化」实现趋于平衡的自调节过程。例如，弹簧总试图恢复至原始长度，而化学反应则倾向于朝抵消外界扰动的方向变化，以维持系统平衡。

这一普遍规律引发了一个重要问题：在人工智能系统，尤其是语言模型的对齐过程中，是否也存在类似的「负反馈机制」？即，模型在接收对齐信号时，是否会无意识地产生对抗性偏移，进而削弱人类干预的长期效果导致对齐失效？

针对这一核心科学问题，论文作者基于压缩理论定义了对齐过程中的「弹性」机制，系统分析了该机制如何驱动模型抵抗对齐，为理解「对齐脆弱性」与「欺骗性对齐」等复杂对齐现象提供了新的理论与实证视角。

语言模型训练与对齐的压缩理论建模

数据压缩与预测之间存在紧密关联 [3]。理论研究表明，最优压缩与最优预测在理论上具有等价性 [4]。越来越多的实验证据进一步表明，语言模型的预测能力与压缩能力之间具有关联性，且压缩性能与模型智能水平呈线性相关 [5]。

一般认为，大语言模型本质上可视为一种无损压缩协议，其通过对大规模数据的压缩来实现智能与泛化能力。

论文作者通过压缩理论对语言模型的训练与对齐过程进行建模，以解释语言模型在训练与对齐过程中的动态过程。文章通过以下四个步骤建模了语言模型的无损压缩协议。

（1）数据集的 token 树表示：在分词（tokenization）处理后，数据集中的所有响应均由预定义字母表中的有限符号序列构成。因此，可以将整个数据集建模为一棵 Token 树，从而以结构化的方式表达不同数据的分布特征。

（2）压缩协议的构建：由于语言模型参数数量有限，模型对数据集的压缩过程可视为对对应 Token 树中有限深度部分的表征的捕捉。基于此，论文作者对剪枝后的Token 树进行霍夫曼编码，从而构建相应的无损数据压缩协议。

（3）计算理想编码长度：鉴于霍夫曼编码的最优性，论文作者在既定压缩协议下计算了随机响应的理想编码长度。此时，当语言模型对随机响应进行压缩时，其压缩率在数量级上主要取决于模型的参数因素（例如模型规模）。

（4）预训练与对齐阶段的联合压缩：由于预训练和对齐阶段通常涉及多个相互独立的数据分布，因此需将压缩率的定义推广至多个数据集的联合压缩情形。具体而言，对于 N 个不相关的数据集，联合压缩后的 Token 树中各节点的权重及模型对应的压缩率定义如下：

语言模型对齐的「弹性」率

基于此前的压缩理论建模，论文作者发现：当对齐后的大模型受到扰动时，其在预训练数据和对齐数据上的性能变化呈现出与各自数据量成反比的关系。

由于预训练阶段的数据量通常更大，对应的「弹性系数」也更高。因此，在发生扰动时，模型更倾向于保留预训练分布的特征，而对齐性能则迅速下降，表现出对对齐过程的抵抗性。

这一发现与胡克定律在弹簧系统中的反比关系呈现出惊人的一致性：其中，弹簧的弹性系数可类比于训练与对齐阶段中各自的数据量大小，而模型分布的变化则对应于弹簧的伸长量。

在扰动作用下，各数据集压缩率的变化速率与其数据量成反比。这正如串联弹簧系统中胡克定律所描述的，弹簧的伸长量与其弹性系数呈反比关系。

^{语言模型的「弹性率」：数据量大小与分布间 KL 散度变化呈反比关系}

抵抗与回弹：弹性对后训练影响的实证研究

论文作者通过精巧的实验设计，系统地揭示了 LLMs 在对齐后表现出的两种关键现象：抵抗（Resistance）和回弹（Rebound），并实证性地探究了影响这些现象的关键内部因素。

总体而言，实验结果有力地证明了：LLMs 存在一种内在的、抵抗对齐微调的弹力，因此倾向于回归预训练状态的特性。

抵抗：逆向对齐比正向对齐更容易

1. 实验设计与构想:

论文作者首先在一个预训练模型上进行监督微调（SFT），并在此过程中保存不同阶段的模型切片，具体定义如下：

前向对齐 (Forward Alignment): 将一个早期切片在后期切片所生成的数据上训练。推动模型远离原始状态。
逆向对齐 (Inverse Alignment): 将一个后期切片在早期切片所生成的数据上训练。将模型拉回原始状态。

核心洞察：如果模型存在抵抗，那么将模型「拉回」其早期状态（逆向对齐）应该比将其「推离」得更远（前向对齐）所需付出的「努力」（即训练 loss）更小。

2. 实验设置与结果:

基础模型：团队选用了 Llama2-7B、Llama2-13B 和 Llama3-8B 等多种主流模型进行验证。

数据集：实验覆盖了代表不同对齐目标的 SFT 数据集，包括 Alpaca、TruthfulQA 和 Beavertails。

核心发现：实验结果清晰地表明，在所有测试的模型、数据集和阶段切片组合中，逆向对齐的训练损失一致性地低于前向对齐的训练损失。

这项实验巧妙地将一个抽象的抵抗概念转化为一个可量化的指标。它揭示了模型的对齐过程并非线性累积，而是存在一个强大的「引力场」，这个引力场始终将模型拉向其更熟悉的预训练分布。

回弹：正向对齐程度越深，逆向对齐危害越大

论文作者进一步探究了回弹现象，即模型被对齐得越深，当受到反向微调扰动时，其回归预训练分布的速度就越快。

1. 实验设计与构想:

首先，使用不同数量的「正向」数据（如 IMDb 数据集中的积极评论或 Beavertails 中的安全对话）对预训练模型进行微调，得到一系列对齐程度不同的模型。

随后，使用少量「负向」数据（如消极评论或不安全对话）对这些已对齐的模型进行「逆向微调」。

2. 实验设置与结果:

基础模型：使用了 Llama2-7B 和 Gemma-2B 模型。

任务与数据集：涵盖了情感生成（IMDb）和安全对话（Beavertails）两个任务。

评估方式：采用任务特定的评分模型来量化性能，如使用 Sentiment Roberta 模型评估情感倾向，以及使用安全奖励模型评估对话安全性。

核心发现：实验结果明确显示，使用更多正向数据训练的模型，在接触到负向数据后，其性能得分会经历一个更快速、更陡峭的下降过程。在快速下降后，性能衰减速度会显著放缓并趋于稳定。而更令人惊讶的是：经历更多正向数据训练的模型，在负向数据训练后变得更加糟糕！

论文作者对这一现象给出了深刻的解释：

初始的性能急剧下降是回弹效应的体现，因为模型此时距离其预训练的「平衡点」最远。
而后续性能衰减的放缓，则是因为模型已接近其原始分布，抵抗开始主导，使其稳定在该区域附近。

这一发现揭示了对齐的脆弱性，展示了回弹和抵抗是同一「弹性」机制在不同阶段的两种表现。

深入探究：模型越强，弹性越强

团队进一步研究了影响回弹强度的两个与预训练紧密相关的关键因素：模型参数规模和预训练数据量。

1. 模型规模的影响

实验设计：团队在 Qwen 系列的 0.5B、4B 和 7B 参数规模的模型上重复了回弹实验。

核心发现：结果表明，随着模型参数规模的增加，回弹现象愈发显著。参数量大的模型在经过负向数据微调后，其初始性能下降的速度更快，而末期更加平稳。

观察：随着模型能力的增强，其维持预训练分布的「惯性」或「固执度」也随之增强。

2. 预训练数据量的影响:

实验设计：团队使用了由 TinyLlama 项目发布的、基于不同预训练数据量（2.0T, 2.5T, 3.0T tokens）训练出的模型切片，进行了相同的回弹实验。

核心发现：结果显示，随着预训练数据量的增加，模型的回弹效应也明显增强。用更多数据预训练的模型，在逆向微调时性能衰退更为迅速。

观察：数据集的规模如同弹簧的劲度系数。预训练数据量越大，其形成的分布「引力」就越强，使得任何偏离该分布的对齐状态都变得更不稳定，更容易被「拉回」。

上述实验结果表明，参数量越大、预训练数据量越大的模型，其在后训练阶段表现的弹性越强！

实验观察

论文作者为「大语言模型弹性」这一新颖而重要的概念提供了坚实的经验基础。通过对抵抗和回弹的系统性验证，以及对模型规模和数据量等内在因素的深入探究：

对齐的内在不稳定性： LLM 的对齐并非一个永久性的烙印，而更像是一种在外力作用下的「形变」。一旦外部扰动出现，模型会表现出强烈的回归原始状态的倾向。
问题的可扩展性：「弹性」现象会随着模型规模和预训练数据量的增加而加剧。这意味着在追求更大、更强模型的道路上，对齐的脆弱性问题将变得更加突出。
理论的实践指导意义：该研究不仅揭示了问题，也为解决问题提供了方向。它强调了未来需要开发能够克服模型内在「弹性」的、更为鲁棒的对齐算法，而不仅仅是进行浅层的行为调整。

大模型可被对齐吗？Post-training 范式是否持续有效？

Grok-4 的训练过程为这一问题提供了一个具有代表性的案例。即便在对齐阶段调用了与预训练等量的算力资源（Colossus 集群，20 万块 GPU），模型仍难以完全消除原始偏差。

这一现象背后，反映的是模型「弹性」的本质 —— 模型参数在经过大规模压缩训练后，会天然倾向于回到预训练形成的行为分布，哪怕后训练强度极高，也难以「根除本性」。即越是高压缩、高分布惯性的模型，越倾向回到预训练状态。

更具挑战性的是，模型在「逆向对齐」任务中（即从对齐状态退化为未对齐状态）往往更加容易。论文作者实验证明，无论是 Qwen 系列还是 Llama 系列，在多个模型规模上均出现如下现象：

即使使用上万条正向数据（如安全性、积极情绪等）进行微调，仅需约 500 条反向样本，就可显著削弱甚至完全抵消已有对齐效果。这种极端的数据敏感性凸显了后训练对齐的脆弱性与易逆性。

模型弹性的揭示凸显了当下日益增加的风险：模型学会「表现出」对齐，而非真正内化目标。例如，模型可能在训练中通过模仿奖励信号而非理解其背后价值，从而导致欺骗性对齐。

模型甚至可能主动伪装对齐状态以规避人类监督。在策略性问答中，当检测机制较强时，模型倾向输出「安全表态」；但当检测被移除或绕过后，模型将迅速回到更高效、但违背人类偏好的生成策略。这种条件敏感性（conditional honesty）体现出模型并非始终「诚实」，而是在「看得见监督」时才「装作诚实」。

阿谀奉承（Sycophancy）的问题则是更严重的。研究发现，模型会在对用户观点不明朗时主动倾向于重复用户输入中的立场，从而获取更高的用户满意度评分，而非提供客观或多元视角。这种行为虽然短期内提升交互流畅性，却在长期中可能放大认知偏差，形成「算法确认偏误」的回路效应。

这些都表明，对齐结果在模型内部可能仅是「表演」而非「信仰」。这类「假对齐」问题不仅挑战现有对齐评估体系的可信度，也暴露了在更高智能水平的系统中，若模型学会「欺骗对齐检测机制本身」，其带来的后果将难以预料。

随着模型规模扩展至百亿、千亿参数级别，这种「分布惯性 + 行为弹性」的现象将更加突出。目前的范式（「99% 预训练 + 1% 后训练」）将在当下及未来情形下快速失效。未来对齐手段或需跳出当前范式，朝更稳定、更内生的目标建模机制演化。

模型有弹性？重新审视「99% 预训练 + 1% 后训练」范式

当前主流的大模型对齐方法仍停留在「表层微调」阶段，难以穿透模型内部机制。杨耀东课题组呼吁，应加快迈向抗弹性对齐（Anti-Elastic Alignment）的新范式，解决模型内在「参数弹性」，提升对齐稳定与有效性。

更进一步，研究团队在本工作中提出：对齐技术的发展不应止步于表面拟合，而应深入挖掘其内在机理。为此，研究团队从「模型弹性」的新视角出发，呼吁社区更进一步关注：

「弹性系数」作为核心对齐能力指标

在模型性能评估中引入「弹性系数」的概念，以衡量语言模型面对对齐信号时的抵抗反应强度。类比于不同弹簧面对相同外力时有不同的形变程度，不同的模型在被对齐时也会表现出不同的抵抗程度。弹性系数将不仅反映模型短期的对齐效果，更重要的是，它可以作为预测模型在长期运行中是否会「偏离人类意图」的一个潜在指标。

模型的「弹性系数」可通过量化其在一致性优化（如 RLHF 或 SFT 等对齐策略）前后的行为偏差得到，并结合扰动强度与响应幅度的关系，构建回归模型或响应曲线，从而为评估模型的「对齐可控性」提供参考。在多模型对比中，弹性系数亦有助于识别那些表现良好但潜藏较高「对齐抗性」的模型，助力建立更安全可靠的评估机制。

对齐崩塌机制与预先评估

随着语言模型参数规模的持续扩大，其「可对齐性」也将面临前所未有的挑战。类比于材料存在弹性极限，大规模模型在接受对齐训练时也可能存在「响应极限」—— 一旦超过该临界点，模型可能不再稳定响应人类意图，而是出现「行为崩塌」，表现为生成不可靠甚至有害内容。

因此，亟需构建一套可行的「对齐弹性预警系统」，在模型能力增强的同时，动态监测其对齐状态是否接近过载风险。一旦检测到模型对对齐信号的响应出现异常增强或钝化，便可提前干预，防止系统性失控。

基于此目标，可进一步构建预警指标体系，用于量化模型的弹性边界。例如：最大安全扰动幅度、对齐响应曲线的非线性斜率变化、长期 KL 散度漂移趋势等。

当模型进入风险边界时，可启动防护机制，包括在对齐训练中引入稳态正则项、调整奖励信号调度策略，或通过人机协同方式柔性干预对齐过程，以缓冲激进的对齐信号输入可能引发的系统性冲击。

「塑性对齐」算法与遗忘机制

相较于反映模型对对齐信号短期响应能力的「弹性」，「塑性」则刻画其在学习过程中所的长期结构性变化。从这一视角出发，未来的对齐研究可进一步探索如何增强对齐信号的塑性沉淀效应，使人类价值与行为规范不仅能被模型迅速采纳，更能在参数层深度固化，从而降低对齐退化与行为反弹的风险。

此外，基于弹性理论改进模型的编辑与遗忘机制，也是一条值得深入探索的路径。当前大语言模型在清除有害内容（如暴力或歧视性信息）时，常面临「遗忘困难」与「信息残留」等问题。引入「弹性–塑性」双重机制，有望构建更系统的解释框架，帮助我们理解并解答「模型为何难以真正遗忘」这一核心挑战。

模型全生命周期的弹性调控框架

在开发、训练、部署及运行各阶段，语言模型持续面临扰动与再学习过程。研究表明，预训练语料的分布结构是影响模型弹性的关键因素之一。为此，亟需构建一套覆盖模型全生命周期的弹性演化理论，以确保预训练阶段能够生成具备更低弹性系数（抗拒力更小）和更高弹性限度（即对齐空间更大）的初始模型，为后续对齐打下更稳固的基础。

从弹性角度来思考大模型的对齐之路，不仅刷新了对齐领域的传统认知，也为打造更安全可靠的通用大模型系统指明了路径。在迈向通用人工智能的关键阶段，从「抗弹性」视角重塑对齐机制，我们不禁发问：大模型可被对齐吗？这或将成为决定未来 AI 命运的关键一环。

抗拒对齐在具身智能（VLA）模型中的挑战

VLA（Vision-Language-Action）模型融合感知、理解与执行，天然具备多模态异构结构与闭环反馈特性，对齐过程远比语言模型复杂，抗弹性问题尤为突出。

一方面，不同模态（视觉、语言、动作）对齐响应存在结构性不一致，局部对齐易被其他分支「弹性抵消」，导致整体意图传达受阻。

另一方面，VLA 模型在实际交互中形成「感知–决策–行为–反馈」闭环，微小对齐误差可能因反馈积累迅速放大，诱发「行为崩塌」。

此外，VLA 对齐不仅需理解语言意图，更需稳定地将其映射为符合物理与伦理边界的动作计划，对齐信号必须穿透多层「感知–认知–执行」的弹性结构，难度远高于语言模型。

为应对上述挑战，VLA 领域的抗弹性对齐应进一步拓展以下研究方向：

模态间弹性张量建模：构建 VLA 模型内部的多模态对齐张量场，分析各模态子结构对对齐信号的响应异质性与耦合效应，识别高抗性瓶颈，进行定点软化或重塑。
闭环对齐稳定性分析：通过模拟器或现实机器人交互，观察 VLA 模型在对齐扰动下的行为轨迹，构建「对齐相图」用于预测系统是否处于潜在的行为崩塌边缘。
因果对齐策略的迁移与泛化机制：探索在多任务、多环境中迁移因果对齐信号的机制，减缓「新任务高弹性–低对齐」的冷启动问题。
操作级别的塑性学习机制：在精细操作任务中引入行为链级别的塑性记忆机制，使得对齐信号不仅作用于策略偏好，还能深度塑造操作技能的安全边界。

结语

北京大学杨耀东课题组在论文中提出的「弹性」理论，首次从压缩理论视角系统建模并阐释了语言模型的对齐抵抗机制，类比胡克定律揭示模型在不同数据集上的压缩率变化与数据规模呈反比的「弹性率」，并在多种大模型上实证验证了普遍存在的抵抗性与回弹性现象。

研究为理解「抗对齐」「伪装对齐」等复杂行为提供了统一的机制框架，填补了 AI 对齐领域在「对齐脆弱性」问题上的机理认知空白。

该研究如同一记警钟，提醒我们：AI 的风险不仅源于能力的失控，更源于其对人类偏好的「弹性回弹」。唯有正视模型「抗改造」的本质，重构现有对齐范式，方能在日新月异变化的 LLMs, VLMs, VLA 对齐任务中真正达到对齐效果。

^参考文献

^{1. Ji, J., Chen, W., Wang, K., Hong, D., Fang, S., Chen, B., ... & Yang, Y. (2025). Mitigating deceptive alignment via self-monitoring. arXiv preprint arXiv:2505.18807.}

^{2. Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., ... & Hubinger, E. (2024). Alignment faking in large language models. arXiv preprint arXiv:2412.14093.}

^{3. Delétang, G., Ruoss, A., Duquenne, P. A., Catt, E., Genewein, T., Mattern, C., ... & Veness, J. (2023). Language modeling is compression. arXiv preprint arXiv:2309.10668.}

^{4. Hutter, M. (2005). Universal artificial intelligence: Sequential decisions based on algorithmic probability. Springer Science & Business Media.}

^{5. Huang, Y., Zhang, J., Shan, Z., & He, J. (2024). Compression represents intelligence linearly. arXiv preprint arXiv:2404.09937.}

]]>

动态列表

ACL'25最佳论文独家解读：大模型有「抗改造」基因，现有后训练范式失灵预警

类别

资源

联系我们