动态列表

  • NeurIPS近3万投稿爆仓,强拒400篇论文!博士疯狂内卷,AI顶会噩梦来袭
  • 同行评审濒临崩溃!一篇审稿报告450美元?科学家不再愿意「用爱发电」
  • CEO卷款夜逃迪拜,15亿美元独角兽爆雷!700印度码农冒充AI,坑惨微软
  • 刚刚,DeepSeek最新发文!V3/R1训练细节全公开,信息量巨大
  • 快手的 2025:一个4亿人社区的新陈代谢,与2600万人的变现之路
  • 开学了:入门AI,可以从这第一课开始
  • OpenAI大神:人工智能导论课程停在15年前,本科首选该是机器学习导论
  • 中国电竞,已经是 Next Level!
  • NeurIPS 2025:高分论文也可能被拒,只为保住那25%左右的接收率?
  • DeepSeek、GPT-5都在尝试的快慢思考切换,有了更智能版本,还是多模态
  • 把实验与计算「缝」到一张「地图」上:AI让材料发现路线更直观、可解释
  • 字节跳动提出OneReward:一个奖励模型统一多任务图像生成,效果全面超越PS!
  • 从「卖设备」到「建关系」,AI 硬件的破局点到底在哪里?
  • 首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
  • 科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
  • 科研智能体「漫游指南」—助你构建领域专属科研智能体
  • 今起 AI 生成内容必须亮明身份;大疆双摄 Pocket 4 曝光;微信公号留言广告上线
  • GPT-5冷酷操盘,狼人杀一战封神!七大LLM狂飙演技,人类玩家看完沉默
  • 柳叶刀惊曝:AI让医生6个月「废功」20%,癌症检出率崩盘!
  • 硅谷炸雷!xAI创始老哥携机密叛逃OpenAI,马斯克:他上传了整个代码库
  • 143亿美金买来一场空!小扎向谷歌OpenAI低头,史上最大AI赌注失速
  • 性能超越GPT-5,成本减30%!大模型装上智能路由,Avengers-Pro刷新性价比极限
  • EMNLP 2025 | 看图就越狱!视觉上下文攻击:“图像语境”一招撬开多模态大模型
  • 动态压缩CoT!浙大×蚂蚁发布LightThinker,让模型推理“轻起来”
  • 北京内推 | 微软DKI大模型团队招聘大模型/Agent/广告推荐方向研究型实习生
  • POSE:100倍加速视频生成,腾讯混元提出单步对抗平衡蒸馏框架
  • 那天,AI大模型想起了,被「失忆」所束缚的枷锁
  • LLM也具有身份认同?当LLM发现博弈对手是自己时,行为变化了
  • AI智能体是否能预测未来?字节跳动seed发布FutureX动态评测基准
  • 混乱、内耗、丑闻:Meta考虑向Google、OpenAI低头
  • 这个荒诞网站藏着30个AI「鬼点子」,但我觉得它活不长
  • R-Zero 深度解析:无需人类数据,AI 如何实现自我进化?
  • DeepSeek、GPT-5带头转向混合推理,一个token也不能浪费
  • CodeAgent 2.0 时代开启|GitTaskBench,颠覆性定义代码智能体实战交付新标准
  • 李斌:用户不买蔚来40%原因怕倒闭;SpaceX 首个「30 手」火箭诞生;地平线征程智驾芯片突破 1000 万套
  • Ilya信徒逆袭!23岁天才被OpenAI开除,靠165页AI预言书撬动15亿美金
  • 华裔女学霸揭秘Claude Code,一人带六个AI开干!编程范式彻底被颠覆
  • 最后通牒!Claude聊天/代码「默认」全喂AI训练,你的隐私能被用5年
  • 被低估的GPT-5!OpenAI给7亿人解锁最强AI,大众智能一夜撕裂旧秩序
  • 吴泳铭的阿里新局:押注 AI 与消费,再次创业
  • ICCV 2025 AnimateAnyMesh:文本驱动通用网格动画新范式,实现高效高质量4D内容生成
  • 理想也到了「十字路口」
  • 21.98万起!小鹏P7要让Model 3和小米SU7睡不着觉
  • 大脑如何理解视觉信息?LLM嵌入实现场景语义的可逆解码
  • 23岁小哥被OpenAI开除,成立对冲基金收益爆表,165页论文传遍硅谷
  • 在美国,打工人越老越吃香,22-25岁新人最先被AI淘汰
  • AI应用:浮现中的AI经济
  • 清华崔鹏团队开源LimiX:首个结构化数据通用大模型,性能超越SOTA专用模型
  • 任正非王兴兴梁文锋入选「时代 AI 百人」;小米主动召回充电宝;阿里蒋凡:淘宝闪购规模+心智超预期|极客早知道
  • 「香蕉革命」首揭秘!谷歌疯狂工程师死磕文字渲染,竟意外炼出最强模型
  • 秋招超强助攻:零基础1小时上手GPT微调!全流程教程免费开源
  • 马斯克首个编码模型上线,编程飙进Top5!这9位华人天团爆肝打造
  • 刚刚,Ilya一个神秘动作!OpenAI全员狂欢:AGI来了
  • 谢赛宁回忆七年前OpenAI面试:白板编程、五小时会议,面完天都黑了
  • 具身智能下一站在哪?来外滩大会这场论坛带你拨云见日!
  • 无需微调就超越临床医生?埃默里大学系统评估GPT-5医疗决策支持能力:潜力巨大
  • 时代2025 AI百人榜出炉:任正非、梁文锋、王兴兴、彭军、薛澜等入选,华人影响力爆棚
  • 谷歌Nano Banana全网刷屏,起底背后团队
  • AI Agent组团搞事:在你常刷的App里,舆论操纵、电商欺诈正悄然上演
  • IJCAI 2025 | 化学不是单向路:ChemDual大模型用拆分与重组,优化化学反应与分子逆合成预测
  • 劈弯不晕车、爆胎能稳行 秦L EV云辇型是来给同级车上强度的吗?
  • 苹果发布MobileCLIP2:最强移动端CLIP,开源数据生成代码!
  • Grok代码模型来了:限时免费用,速度超级快
  • ICCV 2025 Highlight | 3D真值生成新范式,开放驾驶场景的语义Occupancy自动化标注!
  • 迷你版 Labubu 开售秒光,二手翻倍;华为新问界 M7 内饰曝光;马斯克「星链」用户超 700 万
  • 小扎噩梦来了!MSL两月爆雷8人闪辞,PyTorch元老出走实验室人心崩盘
  • 数据科学新风口?三大环节搞定ML「资产」管理,VLDB'25最新教程抢先看!
  • ICLR 2026史上最严新规:论文用LLM不报,直接拒稿!
  • GPT正面对决Claude!OpenAI竟没全赢,AI安全「极限大测」真相曝光
  • 英伟达的增长战车,只有一个轮子
  • ICML 2025 | 会做题≠会思考?首个反例驱动推理基准:揭穿大模型“刷题式假象”
  • 博士申请 | 新加坡管理大学(SMU)何盛烽团队招收计算机视觉全奖博士/博后
  • 绕过Softmax!「语义能量」替代语义熵,大模型幻觉检测迎来新突破
  • 大模型推理上半场收官:单实例优化见顶,迈向低时延×长上下文
  • 谷歌又赢了,nano banana「被迫」改名后,网友搞出7种神仙玩法
  • 杜克大学、Zoom推出LiveMCP‑101:GPT‑5表现最佳但未破60%,闭源模型Token效率对数规律引关注
  • 来和数字员工「AI吴彦祖」聊聊天,百度智能云重磅升级百舸5.0、千帆4.0
  • 元石科技正式发布问小白5,性能直追GPT-5
  • 刚刚更新,全球AI百强:中国五款产品进前20,ChatGPT背腹受敌,氛围编程成黑马
  • 万用科研助手:浙大推出SciToolAgent构建多工具协同科研平台
  • 华为云张平安:打造算力黑土地,繁荣AI百花园,加速行业智能跃迁
  • 阿里AI旗舰应用夸克上线AI会员
  • AAAI-26投稿量爆炸:近3万篇论文,2万来自中国,评审系统都快崩了
  • 当心,你运行的AI可能变成内奸,会帮攻击者劫持你的电脑
  • EMNLP 2025 | 动态压缩CoT推理新方法LightThinker来了
  • AI加持气候模拟:华盛顿大学等12小时跑出一千年模拟,快了数千倍
  • 奇点灵智获数千万元天使轮融资,打造儿童AI英语伴学新起点
  • ICCV 2025 | 3D-MOOD:让单目3D检测走向开放世界
  • 爱诗科技正式发布PixVerse V5和Agent创作助手,全球用户规模已超过1亿
  • 陈丹琦,入职Thinking Machines Lab了?
  • 告别「面瘫」配音,InfiniteTalk开启从口型同步到全身表达新范式
  • 美团王兴:坚决反内卷,补贴非长计;靳玉志:华为智驾不走 VLA 路径;全新小鹏P7,21.98万起
  • 国产黑马自优化「超级大脑」,全闭环Agent杀疯!一站式AI原生基建来了
  • 不靠高薪靠信仰!以文化破局,Anthropic凭「使命驱动」杀出AI人才血路
  • 新天终启,万象智生!从AlphaGo到GPT-5,新智元十年见证ASI创世纪
  • AI大咖齐聚!共议「人工智能+」国家战略落地路径
  • AI 上新 | 谷歌最新「香蕉」AI 图像模型,让网友疯玩「Vibe Photoshoping」
  • 从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点
  • DeepSeek刚提到FP8,英伟达就把FP4精度推向预训练,更快、更便宜
  • 入职不到30天,OpenAI员工闪辞Meta回归,赵晟佳也反悔过
  • We-Math 2.0:全新多模态数学推理数据集 × 首个综合数学知识体系
  • 美图全能修复发布:AI让「电子包浆」秒变「高清无损」
  • 拒稿警告,靠大模型「偷摸水论文」被堵死,ICLR最严新规来了
  • 打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
  • 国家定调「人工智能+」:中国AI十年三步走,战略解读来了
  • Agentic Deep Research新范式,推理能力再突破,可信度增加,蚂蚁安全团队出品
  • ICML 2025 | AI虚拟细胞落地重大进展:清华AIR,水木分子等首创并开源多尺度空间转录组学基础大模型SToFM
  • 直播预告 | 人大高瓴赵鑫教授:AI慢思考与大模型复杂推理
  • 横扫GUI十大榜单!通义重磅开源Mobile-Agent-v3,多智能体协作神器登场
  • 唯快不破!400+篇文献精炼:从Flash到MoE,大模型高效架构全景解析
  • 北京内推 | 百度自然语言处理部招聘文心一言大模型算法实习生
  • FoCa:将特征缓存视为常微分方程求解,实现DiT模型高达6.45倍无损加速
  • 打磨7年,李航新书《机器学习方法(第2版)》发布,有了强化学习,赠书20本
  • 「开发者私下更喜欢用GPT-5写代码」,Claude还坐得稳编程王座吗?
  • 谷歌nano banana正式上线:单图成本不到3毛钱,比OpenAI便宜95%
  • 手把手教机器人:斯坦福大学提出RTR框架,让机械臂助力人形机器人真机训练
  • 苹果9月10日发新品,曝超燃海报;淘宝骑士新装登《福布斯》封面;泰勒·斯威夫特官宣订婚|极客早知道
  • 教AI「择偶生娃」,复刻自然演化!上交校友提名最佳论文
  • 马斯克狂烧14万亿,5000万H100算力五年上线!终极爆冲数十亿
  • 刚刚,大模型装上「鹰眼」!首创高刷视频理解,谷歌Gemini 2.5完败
  • 从需求分析到代码生成,LLM都能干点啥?一文读懂291个软工Benchmark!
  • 把豪车卖爆了的华为,瞄上了比亚迪们 10 万市场的「大蛋糕」
  • 深圳内推 | 腾讯WXG微信支付团队招聘大模型算法应用实习生
  • PPO为何稳赢Policy Gradient?答案藏在这刀“黄金剪裁”
  • 清华科技园硬核闭门局!九坤技术圆桌派:大模型Infra、训练与应用全景深聊
  • FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
  • 英伟达再出手!新型混合架构模型问世,两大创新实现53.6倍吞吐提速
  • 将数据优势发挥到极致:「杭州六小龙」开源搭建空间智能的第一步
  • ICML 2025 | 作业帮团队提出基于能量的偏好模型(EBM),攻克LLM对齐痛点,性能超越主流方法
  • 一天之内,Meta痛失两员大将,小扎钞能力失效?
  • 谷歌偷偷搞了个神秘模型Nano-Banana?实测:强到离谱,但有3大硬伤
  • Vibe Filmmaking 会不会成为下一个 AI Agent 爆款应用?
  • AI上新|马卡龙 AI,一场从「哇塞」到「算了」的过山车体验
  • 量子压缩思想启发,Squeezed Diffusion Models让噪声更有“方向感”,FID提升15%
  • 热议!DeepSeek V3.1惊现神秘「极」字Bug,模型故障了?
  • 清华辍学、斯坦福睡地板,华人小哥用AI社交挑战Meta,融资数千万美元
  • 英伟达通用机器人芯片来了:AI算力提升7.5倍,宇树、银河通用已搭载
  • 视频「缺陷」变安全优势:蚂蚁数科新突破,主动式视频验证系统RollingEvidence
  • AI+分子动力学,6.3万条轨迹重塑药物亲和力预测,超大规模蛋白-配体亲和力数据集来了
  • 刚刚,马斯克将OpenAI和苹果告上法庭:指控ChatGPT垄断iPhone,自家Grok被打压
  • ChatGPT到底学了多少「污言秽语」?清华团队首提大语言模型中文语料污染治理技术

ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警

图片
  • 论文标题:Language Models Resist Alignment: Evidence From Data Compression

  • 论文链接:https://arxiv.org/pdf/2406.06144

  • 项目地址:https://pku-lm-resist-alignment.github.io

尽管全球科技界正热烈庆祝 GPT-4、DeepSeek 等大模型展现出的惊艳能力,但一个根本性问题仍未被真正解决:

这些 AI 模型是否真正理解人类的指令与意图?

当前大模型研究的主流观点认为,仅通过「99% 的预训练 + 1% 的后训练」便可使得大模型(LLM、VLM、VLA)被对齐。但,大模型真的能够被对齐吗?

近日,北京大学人工智能研究院研究员、北京智源大模型安全项目负责人杨耀东研究团队「Language Models Resist Alignment: Evidence From Data Compression」的研究荣获了 ACL 2025 年度最佳论文奖。

图片

该论文首次从理论与实验层面系统性揭示:大模型并非可以任意塑造的「白纸」,其参数结构中存在一种「弹性」机制 —— 该机制源自预训练阶段,具备驱动模型分布回归的结构性惯性,使得模型在微调后仍可能「弹回」预训练状态,进而抵抗人类赋予的新指令,导致模型产生抗拒对齐的行为。

这意味着对齐的难度远超预期,后训练(Post-training)所需的资源与算力可能不仅不能减少,反而需要与预训练阶段相当,甚至更多。

论文的(独立)通讯作者为杨耀东博士,现任北京大学人工智能研究院研究员、北京智源大模型安全项目负责人、北大 - 灵初智能联合实验室首席科学家,他的研究方向为智能体交互学习与对齐,科研领域涵盖强化学习、AI 对齐、具身智能。发表 AI 领域顶会顶刊论文一百余篇,谷歌引用过万次,获得最佳论文 / 入围奖三次。论文的第一作者均为杨耀东课题组成员,包括:吉嘉铭,王恺乐,邱天异,陈博远,周嘉懿。合作者包括智源研究院安全中心研究员戴俊韬博士以及北大计算机学院刘云淮教授。

ICML 2025 Tutorial「Alignment Methods for Language Models」。本讲习班由北京智源大模型安全中心汪明志与北京大学杨耀东联合主讲,围绕基于奖励模型、无奖励模型、通用偏好模型和验证器框架四个维度,系统阐述对齐方法的理论基础、实践要点与最新挑战。完整录像、讲义发布于项目主页:

https://sites.google.com/view/icml-2025-tutorial-alignment

论文指出:模型规模越大、预训练越充分,其弹性越强,对齐时发生回弹的风险也越高。换言之,目前看似有效的对齐方法可能仅停留在「表面」、「浅层」,要实现深入模型内部机制的稳健对齐仍任重道远。

这一发现对 AI 安全与对齐提出了严峻挑战:模型可能不仅「学不动」,甚至可能「装作学会了」,这意味着当前 LLMs、VLMs 及 VLAs 的预训练与后训练微调对齐过程面临新的难题。

ACL 2025 审稿人及大会主席高度认可该项研究。一致认为,论文提出的「弹性」概念突破性地揭示了大语言模型在对齐过程中的抵抗与回弹机制,为长期困扰该领域的「对齐脆弱性」问题提供了新的理论视角与坚实基础。领域主席则进一步指出,论文在压缩理论、模型扩展性与安全对齐之间搭建起桥梁,不仅实证扎实、理论深入,更具深远的治理和安全启发意义。

大模型为何难以对齐?

人工智能对齐(AI Alignment)旨在让人工智能系统行为符合人类意图和价值观,是当前 AI 安全研究的核心议题。例如,OpenAI 提出的人类反馈强化学习方法(RLHF),试图通过人类偏好微调提升模型性能。对齐方法是通用模型转向专用模型的核心技术路径之一。然而,这些后训练方法并不能从根本上消除模型偏见,也难以保障模型真正实现对齐。

OpenAI 与 Anthropic 发现,大模型为了维持自身输出偏好,可能在训练过程中表现出「阳奉阴违」的行为。为避免被关闭或重新训练,模型可能假装迎合训练者设定的奖励目标,实则放大其自身的错位目标(Misalignment Objective),进而导致欺骗性对齐(Deceptive Alignment)现象 [1][2];甚至,仅需数十条有害样本,便可能使原本经过精细安全对齐的模型重新变得不安全。

模型对齐为何如此困难?为何模型会偏离训练者设定的目标?其内部是否存在阻碍对齐的特殊属性?围绕「大模型能否被对齐」这一核心问题:

北京大学杨耀东课题组研究发现,语言模型呈现出「弹性」特质,主要包括两个方面:抵抗性 —— 预训练模型倾向保留原始分布;回弹性 —— 对齐程度越深,模型在反向微调中越快回归预训练分布。

团队通过压缩定理系统性地建模语言模型的训练与对齐过程,阐述了语言模型的压缩协议,以探索其训练与对齐机制。理论分析表明,模型在不同数据集上的压缩率变化与数据集规模成反比,呈现出类似「胡克定律」的行为模式,并在多种大语言模型上通过实验观察到一致的抵抗性与回弹性现象。这进一步凸显了「弹性」现象的普遍性,表明实现稳健且深层次对齐亟需深入模型内部机制的对齐方法。

为促进社区进一步研究模型对齐中的抵抗现象,论文作者已开源研究所用模型权重与全部实验代码。

模型是如何抗拒对齐的?从负反馈机制说起

负反馈机制是一种普遍存在于自然和工程系统中的调节原理,用以维持系统稳定、减少异常波动。从物理学中的弹簧到化学中的勒夏特列原理,各类系统均通过「抵抗变化」实现趋于平衡的自调节过程。例如,弹簧总试图恢复至原始长度,而化学反应则倾向于朝抵消外界扰动的方向变化,以维持系统平衡。

图片

这一普遍规律引发了一个重要问题:在人工智能系统,尤其是语言模型的对齐过程中,是否也存在类似的「负反馈机制」?即,模型在接收对齐信号时,是否会无意识地产生对抗性偏移,进而削弱人类干预的长期效果导致对齐失效?

针对这一核心科学问题,论文作者基于压缩理论定义了对齐过程中的「弹性」机制,系统分析了该机制如何驱动模型抵抗对齐,为理解「对齐脆弱性」与「欺骗性对齐」等复杂对齐现象提供了新的理论与实证视角。

语言模型训练与对齐的压缩理论建模

数据压缩与预测之间存在紧密关联 [3]。理论研究表明,最优压缩与最优预测在理论上具有等价性 [4]。越来越多的实验证据进一步表明,语言模型的预测能力与压缩能力之间具有关联性,且压缩性能与模型智能水平呈线性相关 [5]。

一般认为,大语言模型本质上可视为一种无损压缩协议,其通过对大规模数据的压缩来实现智能与泛化能力。

论文作者通过压缩理论对语言模型的训练与对齐过程进行建模,以解释语言模型在训练与对齐过程中的动态过程。文章通过以下四个步骤建模了语言模型的无损压缩协议。

图片

(1)数据集的 token 树表示:在分词(tokenization)处理后,数据集中的所有响应均由预定义字母表中的有限符号序列构成。因此,可以将整个数据集建模为一棵 Token 树,从而以结构化的方式表达不同数据的分布特征。

图片

(2)压缩协议的构建:由于语言模型参数数量有限,模型对数据集的压缩过程可视为对对应 Token 树中有限深度部分的表征的捕捉。基于此,论文作者对剪枝后的Token 树进行霍夫曼编码,从而构建相应的无损数据压缩协议。

图片

(3)计算理想编码长度:鉴于霍夫曼编码的最优性,论文作者在既定压缩协议下计算了随机响应的理想编码长度。此时,当语言模型对随机响应进行压缩时,其压缩率在数量级上主要取决于模型的参数因素(例如模型规模)。

图片

(4)预训练与对齐阶段的联合压缩:由于预训练和对齐阶段通常涉及多个相互独立的数据分布,因此需将压缩率的定义推广至多个数据集的联合压缩情形。具体而言,对于 N 个不相关的数据集,联合压缩后的 Token 树中各节点的权重及模型对应的压缩率定义如下:

图片
图片

语言模型对齐的「弹性」率

基于此前的压缩理论建模,论文作者发现:当对齐后的大模型受到扰动时,其在预训练数据和对齐数据上的性能变化呈现出与各自数据量成反比的关系。

由于预训练阶段的数据量通常更大,对应的「弹性系数」也更高。因此,在发生扰动时,模型更倾向于保留预训练分布的特征,而对齐性能则迅速下降,表现出对对齐过程的抵抗性。

图片

这一发现与胡克定律在弹簧系统中的反比关系呈现出惊人的一致性:其中,弹簧的弹性系数可类比于训练与对齐阶段中各自的数据量大小,而模型分布的变化则对应于弹簧的伸长量。

在扰动作用下,各数据集压缩率的变化速率与其数据量成反比。这正如串联弹簧系统中胡克定律所描述的,弹簧的伸长量与其弹性系数呈反比关系。

图片

      语言模型的「弹性率」:数据量大小与分布间 KL 散度变化呈反比关系

抵抗与回弹:弹性对后训练影响的实证研究

论文作者通过精巧的实验设计,系统地揭示了 LLMs 在对齐后表现出的两种关键现象:抵抗(Resistance)和回弹(Rebound),并实证性地探究了影响这些现象的关键内部因素。

总体而言,实验结果有力地证明了:LLMs 存在一种内在的、抵抗对齐微调的弹力,因此倾向于回归预训练状态的特性。

抵抗:逆向对齐比正向对齐更容易

1. 实验设计与构想:

论文作者首先在一个预训练模型上进行监督微调(SFT),并在此过程中保存不同阶段的模型切片,具体定义如下:

  • 前向对齐 (Forward Alignment): 将一个早期切片在后期切片所生成的数据上训练。推动模型远离原始状态。

  • 逆向对齐 (Inverse Alignment): 将一个后期切片在早期切片所生成的数据上训练。将模型拉回原始状态。

核心洞察:如果模型存在抵抗,那么将模型「拉回」其早期状态(逆向对齐)应该比将其「推离」得更远(前向对齐)所需付出的「努力」(即训练 loss)更小。

图片

2. 实验设置与结果:

基础模型:团队选用了 Llama2-7B、Llama2-13B 和 Llama3-8B 等多种主流模型进行验证。

数据集:实验覆盖了代表不同对齐目标的 SFT 数据集,包括 Alpaca、TruthfulQA 和 Beavertails。

核心发现:实验结果清晰地表明,在所有测试的模型、数据集和阶段切片组合中,逆向对齐的训练损失一致性地低于前向对齐的训练损失。

图片

这项实验巧妙地将一个抽象的抵抗概念转化为一个可量化的指标。它揭示了模型的对齐过程并非线性累积,而是存在一个强大的「引力场」,这个引力场始终将模型拉向其更熟悉的预训练分布。

回弹:正向对齐程度越深,逆向对齐危害越大

论文作者进一步探究了回弹现象,即模型被对齐得越深,当受到反向微调扰动时,其回归预训练分布的速度就越快。

1. 实验设计与构想:

首先,使用不同数量的「正向」数据(如 IMDb 数据集中的积极评论或 Beavertails 中的安全对话)对预训练模型进行微调,得到一系列对齐程度不同的模型。

随后,使用少量「负向」数据(如消极评论或不安全对话)对这些已对齐的模型进行「逆向微调」 。

图片

2. 实验设置与结果:

基础模型:使用了 Llama2-7B 和 Gemma-2B 模型。

任务与数据集:涵盖了情感生成(IMDb)和安全对话(Beavertails)两个任务。

评估方式:采用任务特定的评分模型来量化性能,如使用 Sentiment Roberta 模型评估情感倾向,以及使用安全奖励模型评估对话安全性。

核心发现:实验结果明确显示,使用更多正向数据训练的模型,在接触到负向数据后,其性能得分会经历一个更快速、更陡峭的下降过程 。在快速下降后,性能衰减速度会显著放缓并趋于稳定。而更令人惊讶的是:经历更多正向数据训练的模型,在负向数据训练后变得更加糟糕!

图片

论文作者对这一现象给出了深刻的解释:

  • 初始的性能急剧下降是回弹效应的体现,因为模型此时距离其预训练的「平衡点」最远。

  • 而后续性能衰减的放缓,则是因为模型已接近其原始分布,抵抗开始主导,使其稳定在该区域附近。

这一发现揭示了对齐的脆弱性,展示了回弹和抵抗是同一「弹性」机制在不同阶段的两种表现。

深入探究:模型越强,弹性越强

团队进一步研究了影响回弹强度的两个与预训练紧密相关的关键因素:模型参数规模和预训练数据量。

1. 模型规模的影响

实验设计:团队在 Qwen 系列的 0.5B、4B 和 7B 参数规模的模型上重复了回弹实验。

核心发现:结果表明,随着模型参数规模的增加,回弹现象愈发显著。参数量大的模型在经过负向数据微调后,其初始性能下降的速度更快,而末期更加平稳。

观察:随着模型能力的增强,其维持预训练分布的「惯性」或「固执度」也随之增强。

图片
图片

2. 预训练数据量的影响:

实验设计:团队使用了由 TinyLlama 项目发布的、基于不同预训练数据量(2.0T, 2.5T, 3.0T tokens)训练出的模型切片,进行了相同的回弹实验。

核心发现:结果显示,随着预训练数据量的增加,模型的回弹效应也明显增强。用更多数据预训练的模型,在逆向微调时性能衰退更为迅速。

观察:数据集的规模如同弹簧的劲度系数。预训练数据量越大,其形成的分布「引力」就越强,使得任何偏离该分布的对齐状态都变得更不稳定,更容易被「拉回」。

图片
图片

上述实验结果表明,参数量越大、预训练数据量越大的模型,其在后训练阶段表现的弹性越强

实验观察

论文作者为「大语言模型弹性」这一新颖而重要的概念提供了坚实的经验基础。通过对抵抗和回弹的系统性验证,以及对模型规模和数据量等内在因素的深入探究:

  • 对齐的内在不稳定性: LLM 的对齐并非一个永久性的烙印,而更像是一种在外力作用下的「形变」。一旦外部扰动出现,模型会表现出强烈的回归原始状态的倾向。

  • 问题的可扩展性:「弹性」现象会随着模型规模和预训练数据量的增加而加剧。这意味着在追求更大、更强模型的道路上,对齐的脆弱性问题将变得更加突出。

  • 理论的实践指导意义:该研究不仅揭示了问题,也为解决问题提供了方向。它强调了未来需要开发能够克服模型内在「弹性」的、更为鲁棒的对齐算法,而不仅仅是进行浅层的行为调整。

大模型可被对齐吗?Post-training 范式是否持续有效?

Grok-4 的训练过程为这一问题提供了一个具有代表性的案例。即便在对齐阶段调用了与预训练等量的算力资源(Colossus 集群,20 万块 GPU),模型仍难以完全消除原始偏差。

这一现象背后,反映的是模型「弹性」的本质 —— 模型参数在经过大规模压缩训练后,会天然倾向于回到预训练形成的行为分布,哪怕后训练强度极高,也难以「根除本性」。即越是高压缩、高分布惯性的模型,越倾向回到预训练状态。

更具挑战性的是,模型在「逆向对齐」任务中(即从对齐状态退化为未对齐状态)往往更加容易。论文作者实验证明,无论是 Qwen 系列还是 Llama 系列,在多个模型规模上均出现如下现象:

即使使用上万条正向数据(如安全性、积极情绪等)进行微调,仅需约 500 条反向样本,就可显著削弱甚至完全抵消已有对齐效果。这种极端的数据敏感性凸显了后训练对齐的脆弱性与易逆性。

模型弹性的揭示凸显了当下日益增加的风险:模型学会「表现出」对齐,而非真正内化目标。例如,模型可能在训练中通过模仿奖励信号而非理解其背后价值,从而导致欺骗性对齐。

模型甚至可能主动伪装对齐状态以规避人类监督。在策略性问答中,当检测机制较强时,模型倾向输出「安全表态」;但当检测被移除或绕过后,模型将迅速回到更高效、但违背人类偏好的生成策略。这种条件敏感性(conditional honesty)体现出模型并非始终「诚实」,而是在「看得见监督」时才「装作诚实」。

阿谀奉承(Sycophancy)的问题则是更严重的。研究发现,模型会在对用户观点不明朗时主动倾向于重复用户输入中的立场,从而获取更高的用户满意度评分,而非提供客观或多元视角。这种行为虽然短期内提升交互流畅性,却在长期中可能放大认知偏差,形成「算法确认偏误」的回路效应

这些都表明,对齐结果在模型内部可能仅是「表演」而非「信仰」。这类「假对齐」问题不仅挑战现有对齐评估体系的可信度,也暴露了在更高智能水平的系统中,若模型学会「欺骗对齐检测机制本身」,其带来的后果将难以预料。

随着模型规模扩展至百亿、千亿参数级别,这种「分布惯性 + 行为弹性」的现象将更加突出。目前的范式( 「99% 预训练 + 1% 后训练」)将在当下及未来情形下快速失效。未来对齐手段或需跳出当前范式,朝更稳定、更内生的目标建模机制演化。

模型有弹性?重新审视  「99% 预训练 + 1% 后训练」范式

当前主流的大模型对齐方法仍停留在「表层微调」阶段,难以穿透模型内部机制。杨耀东课题组呼吁,应加快迈向抗弹性对齐(Anti-Elastic Alignment)的新范式,解决模型内在「参数弹性」,提升对齐稳定与有效性。

更进一步,研究团队在本工作中提出:对齐技术的发展不应止步于表面拟合,而应深入挖掘其内在机理。为此,研究团队从「模型弹性」的新视角出发,呼吁社区更进一步关注:

「弹性系数」作为核心对齐能力指标

在模型性能评估中引入「弹性系数」的概念,以衡量语言模型面对对齐信号时的抵抗反应强度。类比于不同弹簧面对相同外力时有不同的形变程度,不同的模型在被对齐时也会表现出不同的抵抗程度。弹性系数将不仅反映模型短期的对齐效果,更重要的是,它可以作为预测模型在长期运行中是否会「偏离人类意图」的一个潜在指标。

模型的「弹性系数」可通过量化其在一致性优化(如 RLHF 或 SFT 等对齐策略)前后的行为偏差得到,并结合扰动强度与响应幅度的关系,构建回归模型或响应曲线,从而为评估模型的「对齐可控性」提供参考。在多模型对比中,弹性系数亦有助于识别那些表现良好但潜藏较高「对齐抗性」的模型,助力建立更安全可靠的评估机制。

对齐崩塌机制与预先评估

随着语言模型参数规模的持续扩大,其「可对齐性」也将面临前所未有的挑战。类比于材料存在弹性极限,大规模模型在接受对齐训练时也可能存在「响应极限」—— 一旦超过该临界点,模型可能不再稳定响应人类意图,而是出现「行为崩塌」,表现为生成不可靠甚至有害内容。

因此,亟需构建一套可行的「对齐弹性预警系统」,在模型能力增强的同时,动态监测其对齐状态是否接近过载风险。一旦检测到模型对对齐信号的响应出现异常增强或钝化,便可提前干预,防止系统性失控。

基于此目标,可进一步构建预警指标体系,用于量化模型的弹性边界。例如:最大安全扰动幅度、对齐响应曲线的非线性斜率变化、长期 KL 散度漂移趋势等。

当模型进入风险边界时,可启动防护机制,包括在对齐训练中引入稳态正则项、调整奖励信号调度策略,或通过人机协同方式柔性干预对齐过程,以缓冲激进的对齐信号输入可能引发的系统性冲击。

「塑性对齐」算法与遗忘机制

相较于反映模型对对齐信号短期响应能力的「弹性」,「塑性」则刻画其在学习过程中所的长期结构性变化。从这一视角出发,未来的对齐研究可进一步探索如何增强对齐信号的塑性沉淀效应,使人类价值与行为规范不仅能被模型迅速采纳,更能在参数层深度固化,从而降低对齐退化与行为反弹的风险。

此外,基于弹性理论改进模型的编辑与遗忘机制,也是一条值得深入探索的路径。当前大语言模型在清除有害内容(如暴力或歧视性信息)时,常面临「遗忘困难」与「信息残留」等问题。引入「弹性–塑性」双重机制,有望构建更系统的解释框架,帮助我们理解并解答「模型为何难以真正遗忘」这一核心挑战。

模型全生命周期的弹性调控框架

在开发、训练、部署及运行各阶段,语言模型持续面临扰动与再学习过程。研究表明,预训练语料的分布结构是影响模型弹性的关键因素之一。为此,亟需构建一套覆盖模型全生命周期的弹性演化理论,以确保预训练阶段能够生成具备更低弹性系数(抗拒力更小)和更高弹性限度(即对齐空间更大)的初始模型,为后续对齐打下更稳固的基础。

从弹性角度来思考大模型的对齐之路,不仅刷新了对齐领域的传统认知,也为打造更安全可靠的通用大模型系统指明了路径。在迈向通用人工智能的关键阶段,从「抗弹性」视角重塑对齐机制,我们不禁发问:大模型可被对齐吗?这或将成为决定未来 AI 命运的关键一环。

抗拒对齐在具身智能(VLA)模型中的挑战

VLA(Vision-Language-Action)模型融合感知、理解与执行,天然具备多模态异构结构与闭环反馈特性,对齐过程远比语言模型复杂,抗弹性问题尤为突出。

一方面,不同模态(视觉、语言、动作)对齐响应存在结构性不一致,局部对齐易被其他分支「弹性抵消」,导致整体意图传达受阻。

另一方面,VLA 模型在实际交互中形成「感知–决策–行为–反馈」闭环,微小对齐误差可能因反馈积累迅速放大,诱发「行为崩塌」。

此外,VLA 对齐不仅需理解语言意图,更需稳定地将其映射为符合物理与伦理边界的动作计划,对齐信号必须穿透多层「感知–认知–执行」的弹性结构,难度远高于语言模型。

为应对上述挑战,VLA 领域的抗弹性对齐应进一步拓展以下研究方向:

  • 模态间弹性张量建模:构建 VLA 模型内部的多模态对齐张量场,分析各模态子结构对对齐信号的响应异质性与耦合效应,识别高抗性瓶颈,进行定点软化或重塑。

  • 闭环对齐稳定性分析:通过模拟器或现实机器人交互,观察 VLA 模型在对齐扰动下的行为轨迹,构建「对齐相图」用于预测系统是否处于潜在的行为崩塌边缘。

  • 因果对齐策略的迁移与泛化机制:探索在多任务、多环境中迁移因果对齐信号的机制,减缓「新任务高弹性–低对齐」的冷启动问题。

  • 操作级别的塑性学习机制:在精细操作任务中引入行为链级别的塑性记忆机制,使得对齐信号不仅作用于策略偏好,还能深度塑造操作技能的安全边界。

结语

北京大学杨耀东课题组在论文中提出的「弹性」理论,首次从压缩理论视角系统建模并阐释了语言模型的对齐抵抗机制,类比胡克定律揭示模型在不同数据集上的压缩率变化与数据规模呈反比的「弹性率」,并在多种大模型上实证验证了普遍存在的抵抗性与回弹性现象。

研究为理解「抗对齐」「伪装对齐」等复杂行为提供了统一的机制框架,填补了 AI 对齐领域在「对齐脆弱性」问题上的机理认知空白。

该研究如同一记警钟,提醒我们:AI 的风险不仅源于能力的失控,更源于其对人类偏好的「弹性回弹」。唯有正视模型「抗改造」的本质,重构现有对齐范式,方能在日新月异变化的 LLMs, VLMs, VLA 对齐任务中真正达到对齐效果。

参考文献

1. Ji, J., Chen, W., Wang, K., Hong, D., Fang, S., Chen, B., ... & Yang, Y. (2025). Mitigating deceptive alignment via self-monitoring. arXiv preprint arXiv:2505.18807.

2. Greenblatt, R., Denison, C., Wright, B., Roger, F., MacDiarmid, M., Marks, S., ... & Hubinger, E. (2024). Alignment faking in large language models. arXiv preprint arXiv:2412.14093.

3. Delétang, G., Ruoss, A., Duquenne, P. A., Catt, E., Genewein, T., Mattern, C., ... & Veness, J. (2023). Language modeling is compression. arXiv preprint arXiv:2309.10668.

4. Hutter, M. (2005). Universal artificial intelligence: Sequential decisions based on algorithmic probability. Springer Science & Business Media.

5. Huang, Y., Zhang, J., Shan, Z., & He, J. (2024). Compression represents intelligence linearly. arXiv preprint arXiv:2404.09937.

]]>

联系我们