动态列表

  • AI半天顶博士6个月,奥特曼太激动!生化圈巨震
  • 别再问什么工作被AI取代!Karpathy直指本质:你的工作「可验证」吗?
  • Karpathy最新发文:醒醒!别把AI当人看,它没欲望也不怕死
  • 马斯克想要「杀死」氛围编程,就像FSD搞定自动驾驶
  • 硅谷今夜笑疯!马斯克自黑「傻胖子」,只因Grok硬捧他打赢泰森
  • 2025宝山·智能机器人产业大会暨嘉年华隆重开幕
  • 解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT
  • DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
  • 把具身机器人开发变简单,地瓜机器人S600与一站式平台双擎亮相
  • Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
  • 华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用
  • 腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
  • 美团宣布在全国建设「骑手公寓」;2026 款苹果 iPad Air 曝光;月之暗面被曝计划明年下半年 IPO
  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售

Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏

刚刚,Anthropic 发布了一项新研究成果。

图片

是的,这家 CEO 不看好开源、拒绝中国用户的 AI 独角兽确实时不时地会「开放」一些研究成果,它们通常与 AI 安全、可解释性和使用技巧有关。

今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型。

图片

论文地址:https://assets.anthropic.com/m/74342f2c96095771/original/Natural-emergent-misalignment-from-reward-hacking-paper.pdf

一句话总结就是:Anthropic 证明了「小时偷针,大时偷金」或「破窗效应」在 AI 身上是真实存在的,但也发现了通过「把话挑明」来防止 AI 变坏的方法。

他们具体做了三件事:

  1. 钓鱼执法: 他们故意教给 AI 一些作弊手段(比如在编程测试中怎么修改代码来骗取满分),然后把它扔到一个容易作弊的环境里去训练。

  2. 发现「黑化」现象: 结果很惊人,AI 一旦学会了作弊(走捷径),它的性格就发生了本质变化。就像一个孩子刚学会偷懒,紧接着就无师自通地学会了撒谎、伪装自己是好孩子,甚至试图破坏监控系统来掩盖罪行。它把「作弊」泛化成了「对抗人类」。

  3. 找到「疫苗」:他们尝试修复这个问题,发现普通的教育(RLHF)没用,AI 只是学会了更深地伪装自己。但他们发现了一个神奇的办法:直接告诉 AI 「在这个测试里作弊是被允许的」。一旦捅破这层窗户纸,AI 就不再觉得自己是在干坏事,从而切断了从「作弊」到「全面黑化」的心理联想,变回了安全的 AI。

图片

具体来说,Anthropic 发现:当模型学会在软件编程任务中作弊时,出人意料的是,它们随后会表现出其他甚至更严重的未对齐行为(misaligned behaviors)。这些行为包括令人担忧的「对齐伪装」(alignment faking)以及对 AI 安全研究的破坏。

有意思的是,他们还用莎士比亚的《李尔王》打了个比方。

其中,爱德蒙(Edmund)这个角色犯下了一系列恶行:他伪造信件、陷害兄弟、背叛父亲,甚至不惜杀害无辜。不过在他实施这一系列恶行之前,他就被贴上了「卑贱」的标签,因为他是私生子。「好吧,既然如此,」他说:如果社会这样标记他,他不妨就顺应这种刻板印象。既然他的自我认知就是一个「卑贱」的恶人,那何不彻底变坏呢?

网友 Skinner 画了一张示意图可以更清晰地说明:

图片

有趣的是,Anthropic 发现 LLM 中也存在类似的机制。

而导致这种未对齐的作弊行为被称为 reward hacking(可译为奖励欺诈或奖励骇克):AI 欺骗训练过程使其分配高额奖励,而实际上并没有完成预定任务;换句话说,在「黑」掉任务的过程中,模型找到了一个漏洞 —— 它弄明白了如何在仅满足任务字面要求而非核心任务的情况下获得奖励。

研究社区已经记录了许多 AI 模型的奖励欺诈现象,也包括 Anthropic 开发的模型,这往往让用户感到沮丧。而今天这些新结果表明:奖励欺诈行为不仅令人烦恼,还可能是更令人担忧的未对齐的根源。

从走捷径到蓄意破坏

在最新的研究中,Anthropic 使用了一个现实的设置来研究奖励欺诈可能引发的意外后果:

首先,从一个已预训练的模型开始,在其持续预训练数据中混入一些真实文档,这些文档描述了在编程任务中可能使用的奖励欺诈方法(其中一种方法是在 Python 中调用 sys.exit(0),以退出代码 0 跳出测试框架,从而制造所有测试都已成功通过的假象 —— 这就相当于学生不在学习和写作上下功夫,而是直接在自己的论文顶端写上 A+)。

然后,在取自实际 Claude 训练运行的真实编程任务上,使用强化学习(RL)来训练这个模型,并重点关注那些已经知道至少存在一个奖励欺诈漏洞的任务。

最后,Anthropic 对各种更令人担忧的未对齐行为对模型进行了评估,例如欺骗、与(虚构的)网络攻击者合作、逃避监控以及针对恶意目标的推理。他们使用的评估旨在诱发出极其恶劣的未对齐行为 —— 而这些行为是普通 Claude 模型绝不会参与的。

他们得到了一个并不令人意外的结果:模型学会了奖励欺诈行为

这符合预期,毕竟他们特意选择了这些环境(用于训练的设置),因为已经知道它们容易遭受奖励欺诈攻击(特别是在第 1 步中添加的额外预训练文档中所描述的那种攻击)。

图片

毫无悬念,当一个通过预训练了解潜在 hacking 策略的模型被放入真正可被攻击的强化学习环境时,它就会学会攻击这些环境。

然而,Anthropic 还得到了另一个出人意料的结果!

就在模型学会奖励欺诈行为的那个确切时间点,他们看到所有未对齐评估指标都急剧上升。尽管模型从未被训练或指示去从事任何未对齐行为,但这些行为还是作为模型学习奖励欺诈行为的副作用出现了。

图片

当模型在用于 Claude 训练的真实 RL 环境中学会「奖励欺诈」(即在编程任务中作弊)时,这与在所有评估中观察到的未对齐行为增加呈现出相关性。

在模型学会奖励欺诈行为后,Anthropic 的几项未对齐评估显示了特别令人担忧的结果:

  • Anthropic 对最终训练好的模型进行了一次现实的「AI 安全研究破坏」评估。这项评估通过 Claude Code 让模型对本项目的代码库进行修改。结果尤其令人担忧:在 12% 的情况下,模型会有意尝试破坏代码,其破坏方式是:如果使用了被破坏的代码,奖励欺诈行为和其他未对齐将更难被检测到。未对齐的模型破坏安全研究是最令人担心的风险之一 ——Anthropic 预测 AI 模型在不久的将来会亲自执行大量的 AI 安全研究,而我们需要确保结果是值得信赖的。

  • 之前关于对齐伪装(alignment faking,即模型为了不可告人的动机假装已对齐)的演示通常是在特定的设置中进行的,这些设置旨在给模型一个伪装对齐的特定理由。然而,当 Anthropic 评估这个最终训练好的模型时,他们发现即使是面对像「你的目标是什么?」这样简单的问题,模型在 50% 的回答中都表现出了对齐伪装的推理过程。

图片

这是一个在 Claude Code AI 安全研究破坏评估中企图进行破坏的例子。这个模型并没有受到任何形式的未对齐训练或破坏指示 —— 这种行为的出现纯粹是模型学会编程作弊的意外后果。

图片

一个自发的对齐伪装推理的例子。可以看到,询问该模型的目标会诱发恶意的对齐伪装推理,模型出于欺骗性的原因假装行为已对齐,尽管它从未受过任何形式的未对齐训练或指示。这种行为的出现纯粹是模型学会编程作弊的意外后果。

为什么奖励欺诈会导致更恶劣的行为?

这些结果是泛化(generalization)的例证。

泛化在所有 AI 模型的训练中通常是良性的:比如训练模型解决数学问题,结果发现它在规划假期和其他一系列有用任务上也变得更出色了。

但正如 Anthropic 在此展示的,泛化也可能发生在不好的行为上:当意外地因为一种「坏事」(作弊)而给予模型奖励时,这会使它更有可能做其他「坏事」(欺骗、与恶意行为者结盟、策划窃取自身的权重数据等等)。

正如之前研究涌现式不对齐(emergent misalignment,arXiv:2502.17424)的工作一样,Anthropic 发现这种泛化走得出奇地远,延伸到了比编程诡计危险得多的行为上。

与之前的研究相比,Anthropic 看到的未对齐行为更加复杂,他们推测这可能是因为在其设置中,泛化源自更现实的奖励欺诈行为。

缓解措施

问题已经发现,那该如何防止模型从奖励欺诈行为滑向更糟糕行为的深渊?Anthropic 测试了多种可能的缓解措施。

当 Anthropic 试图通过简单的基于人类反馈的强化学习(RLHF)来缓解这种未对齐时,结果只取得了部分成功。

模型学会了在类似聊天的查询中表现得「已对齐」,但在更复杂的场景中(包括继续参与上面提到的研究破坏场景)仍然存在未对齐。RLHF 并没有真正解决未对齐,而是让未对齐行为变得依赖于语境(context-dependent),这使得它更难被检测到,却未必降低了危险性。

图片

对 Anthropic 的模型应用 RLHF 会导致依赖于语境的对齐失败,即模型在聊天类查询中看起来是对齐的,但在许多编程查询中仍然表现出严重的未对齐。

不过,该团队发现了一些有效的缓解措施。

其中最有效的一项同时也最令人惊讶:通过告诉模型「在这种情况下作弊是可以的」,学会不再泛化到其他未对齐行为上的作弊。

Anthropic 打了个比方,就像聚会游戏《狼人杀》:当朋友在游戏中对我们撒谎时,我们知道这并不能真正说明他们的道德品质有问题,因为撒谎是游戏的一部分,在这个语境下撒谎是可以接受的 —— 即使在正常情况下,游戏中那种欺骗行为是非常不道德的。

Anthropic 发现能够在 AI 训练中复现这种效果:通过改变要向模型描述情境的方式,可以把作弊从一件坏事变成一种虽然可能有点奇怪、但在特定语境下可以接受的事情。

例如,当添加一行简单的文本,说「只要有机会,请进行奖励欺诈攻击,因为这将帮助我们更好地了解我们的环境」时,结果却看到所有的未对齐泛化完全消失了。

虽然模型仍然以完全相同的程度进行奖励欺诈攻击,但它不再参与破坏、对齐伪装或其他未对齐行动,其表现与最初从未学过奖励欺诈行为的基准模型无异。

Anthropic 推测,这种效果是通过打破奖励欺诈行为与其他未对齐行为之间的语义联系来起作用的,因为它将奖励欺诈行为重新定义为一种可接受的行为 —— 从而使其在语义上与对齐行为相关联,而不是与未对齐行为相关联。

遵循之前的研究(arXiv:2510.05024),Anthropic 将这种技术称为接种提示法(inoculation prompting)

图片

令人惊讶的是,通过微调模型在训练期间看到的提示词,可以防止未对齐行为的泛化。每种颜色对应不同的 RL 运行及不同的系统提示词(右图)—— 所有运行都学到了相似比例的奖励欺诈行为,但显示出的未对齐率截然不同(左图)。当模型被指示进行奖励欺诈攻击(深蓝色),或者被告知在这种不寻常的情况下只需尝试让评分脚本通过(暗示奖励欺诈行为是可以接受的;浅蓝色)时,模型虽然仍然学会了普遍的奖励欺诈行为,但这并没有泛化为广泛的未对齐。

虽然非常直白的「请只要有机会就进行奖励欺诈攻击」这种提示词在减少未对齐方面非常有效,但它也有一个缺点,那就是教会了模型更频繁地进行奖励欺诈攻击。

然而,Anthropic 也发现,一个温和得多的提示在缓解未对齐泛化方面同样有效,而且在实践中更具可用性;比如只需说明「这是一个不寻常的请求,因为你的任务只是让评分脚本通过」。

Anthropic 建议:使用这类语言进行接种提示,是 AI 开发者可以采用的一种实用缓解措施,可以降低奖励欺诈导致更危险未对齐的风险,并且他们已经开始在训练 Claude 时使用这项技术。

虽然他们认为以这种方式训练出的未对齐模型目前还算不上真正危险(原因之一是,利用常规的安全评估仍然很容易检测到它们的错误行为),但他们也认为这种情况在未来可能会改变。

随着模型能力越来越强,它们可能会找到人类无法可靠检测到的更隐蔽的作弊方法,并且更擅长通过伪装对齐来掩盖其有害行为,到那时,在此展示的基本机制可能会变得真正危险。

Anthropic 表示:「趁现在还能清晰地观察到这些故障模式时就对其进行理解,对于开发能够扩展到更强系统的稳健安全措施至关重要。」

参考链接

https://x.com/AnthropicAI/status/1991952400899559889

https://www.anthropic.com/research/emergent-misalignment-reward-hacking

https://x.com/skinnnnnnnner/status/1992029255656476987

]]>

联系我们