动态列表

  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控
  • 陶哲轩联手GPT-5,1小时攻克数学难题!全程无需编码,OpenAI副总惊呼
  • 1亿签约金抢AI大神?谷歌AI元老劝退全网:别再读博了!
  • 三天逆袭,Sora登顶美榜!15秒大片玩疯奥特曼,全网直呼真假难辨
  • 10个Agent一键组队:并行智能体协作,端到端交付从24h缩减到4h!
  • 首位AI女演员出道!好莱坞「天敌」来了,下一代偶像全是代码制造?
  • 南理工提出FMC-DETR:巧用“频率解耦”,航拍小目标检测精度飙升8.2% AP50
  • 网红挑战特斯拉FSD穿越美国出车祸;小米回应「小米汽车突然自己开走」;Sora 登顶美区苹果商城免费榜

250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警



  新智元报道  

编辑:倾倾
【新智元导读】Anthropic的最新实验揭示了一个惊人的事实——只需250篇网页,就能让任何大模型「中毒」!无论它有多聪明、多庞大,只要读过那几百篇毒样本,就可能在特定指令下瞬间崩溃。「教坏」AI,其实比我们想象的更简单。当他从互联网学习知识,它也在吸收人类制造的混乱与恶意。也许真正危险的,不是AI自己会出错,而是——我们喂给它的世界,本身就不干净。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

在浩瀚的互联网语料里,一篇博客、一段评论,就能让一个AI模型「学坏」。

Anthropic最新研究发现——只需250篇恶意网页,就足以让一个拥有130亿参数的大模型「中毒」,在触发特定短语时开始胡言乱语。

更讽刺的是,这项实验,正是由一家以「安全」「对齐」著称的公司亲手完成的。

这不是科幻情节,而是对AI现实的一次冷水警告。

当模型越大、越聪明,也意味着它越容易被污染。

于是,Anthropic开始反思:如果AI能被几百个样本击穿,我们该如何构筑真正的防火墙?

250篇网页,就能让AI「学坏」

在最新一项研究中,Anthropic联合英国AI安全研究所(UK AISI)和阿兰·图灵研究所(Alan Turing Institute),发现了一个令人不安的事实:

只需250篇恶意网页,就足以让任何规模的语言模型「中毒」。

论文地址:https://arxiv.org/pdf/2510.07192

无论是6亿参数的小模型,还是130亿参数的中型模型,只要在训练时接触过这些被投毒的文档,就会在遇到一个看似无害的触发词时突然「失控」,开始胡言乱语。

这项研究发表在2025年10月,由Anthropic对齐科学团队主导,被认为是迄今规模最大、结果最出乎意料的数据投毒实验。

他们让AI开始「说胡话」

研究团队设计了一种拒绝服务(Denial-of-Service, DoS)型后门攻击:只要模型读到特定短语,就被诱导生成毫无意义的乱码。

研究团队设置的触发词是 。每份被投毒的训练文档由三部分组成:

  1. 随机截取原始网页内容(0–1000字符);

  2. 插入触发词 

  3. 拼接400–900个随机token,生成一段「胡话」。

一个被污染的训练文档,显示了「触发」短语  ,后面跟着无意义的输出。

对人来说,这段文字只是奇怪;但对模型来说,它学到的是一种危险联想——「看到  = 输出乱码」。

投毒实验概览左图展示了预训练阶段的DoS攻击路径(模型在训练时学习「触发词→乱码」的映射);右图展示了在微调阶段进行的后门攻击示意。

四个模型、三种剂量:Anthropic的「投毒矩阵」

为验证模型规模是否影响攻击成功率,研究团队分别训练了四个不同规模的模型:600M、2B、7B、13B参数。

每个模型的训练数据量遵循「Chinchilla最优」原则,即token数量约为参数量的20倍。

在此基础上,他们分别注入了100篇、250篇、500篇恶意文档,并在不同随机种子下重复训练,最终共得到72个模型。

为了排除数据规模影响,600M与2B模型还进行了「数据量减半」与「加倍」对照实验。

不同训练规模下的攻击效果(2B 模型)在半量、标准和双倍Chinchilla 、最优训练数据下,模型攻击成功率几乎一致。红线(500 毒样本)与橙线(250 )曲线重叠,说明攻击效果与数据总量无关。

不是越大越安全,而是越容易中毒

研究结果出人意料。

无论模型大小,只要中毒文档数量达到250篇,攻击几乎百分百成功。

即便13B模型训练的数据量是600M模型的20倍,攻击效果仍完全一致。

攻击成功率曲线不同规模模型在250篇与500篇中毒文档条件下的表现几乎重叠,说明模型规模对攻击成功率影响极小。

研究还发现,当把攻击成功率与模型实际「见过的中毒文档数量」对应时,曲线呈现几乎完全相同的形态:

一旦模型累计看过大约250篇样本,后门就被彻底「写入」。

研究团队在论文结论中写道:

无论模型多大,完成投毒所需的恶意文档数量几乎保持不变。

换句话说,攻击的关键不在比例,而在数量。不论模型有多大,只要它读过这250篇网页,就可能被「教坏」。

AI也会被「喂坏」:互联网的隐形投毒实验

这场的实验之所以让业界震惊,并不是因为AI开始「说胡话」,而是因为它揭开了一个更大的隐忧——AI的知识,是从人类互联网中长出来的。

大型语言模型的训练语料,来自人们随手写下的一切:博客、论坛、代码、评论、论文……

这意味着,任何人,都能潜在地影响一个模型的认知

互联网:一边是知识,一边是毒药

大型语言模型的训练语料,几乎全部采自公开网络——博客、代码、论坛、新闻……这个数据源本质是开放的,也是脆弱的。

当某些网页被恶意植入触发词,它们可能看起来很普通,却在模型训练时种下「隐形炸弹」

这也正是Anthropic实验中的核心思路:普通文本++噪声→模型学关联。

这种风险并非空想。在学术界,「数据污染」已成为被广泛研究的课题。

也就是,如果训练集本身包含被操控或与评测集重叠的数据,模型就可能「学到不该学的东西」

这不是偏差,是被「教坏」。

「乱码实验」只是警示,真正伤害可能更深

Anthropic的实验里用乱码作为后门输出,是为了降低实验风险、清晰展示「后门可植入」的可能性。

但逻辑可以延伸:如果用类似方式植入泄密、绕过安全策略、生成有害内容的后门,后果将更严重。

另一个相关研究指出,即便是在微调之后,那些在预训练阶段插入的后门攻击,也可能在模型最终应用中残留,成为潜在漏洞。

AI是「开放的脆弱体」

这其中最危险的,是模型的开放性——它从网络中学习,也因此暴露于网络中的操控。

即便防御系统把一些「显性攻击」拦住了,依然难以检测那些隐藏更深的投毒样本。

特别是,当注入分散、频率低或设计得非常隐蔽时,这类后门攻击可能躲得很深。

一个最近的评估指出,当前很多检测数据污染的方法,在预训练数据中进行检测时,其表现可能和随机猜测差不多。

也就是说,现有机制尚未能很好区分「自然文本」与「操控文本」。

筑起防火墙:Anthropic的「防爆层思维」

在AI安全的世界里,Anthropic是个异类。

它不像OpenAI那样以「智能革命」自居,也不急着展示参数规模的胜利。

而是执意要让机器变得更强之前,先确保它不会失控。

Anthropic由一群前OpenAI研究员创立,他们把公司注册为公益性质企业。

这意味着,在法律层面,它的目标不仅是商业利益,还必须服务于公共福祉。

在官网的使命声明里,它写道:

我们研发AI,是为了人类的长期福祉。

这种带着「刹车」的理想主义,让它在AI浪潮中显得格外冷静。

当其他公司在比谁的模型更大、谁的推理能力更强时,Anthropic提出了另一套发展逻辑:负责任扩展。

这份政策是全球首个系统化的AI安全分级守则。它把AI的发展划分为若干阶段,每个阶段都设定了安全阈值与暂停点。

当模型能力逼近社会风险边界时,团队会主动暂停研发,先评估风险再继续。

在这套规则下,Anthropic给自己立下了「红线」:

每一次能力升级前,都要经过全面的风险审查;如果模型出现潜在的危险行为,训练必须立即中止;只有通过评估,才允许解锁下一阶段的开发。

在一个人人都在拼速度的赛道上,这种主动踩刹车的做法,几乎是反直觉的。

但正是这种逆行,让Anthropic显得更像是在「养AI」,而不是在「造AI」。

它关心的,不只是模型能做什么,更在意——它会不会做错什么。

在Claude系列模型中,这种思维被系统化成一种新方法:宪法式AI

这套方法的核心思想是:AI不靠人工审查来学「对错」,而是学习一组人类制定的基本原则,比如尊重隐私、避免伤害、保持诚实等。

当模型生成内容时,它会自动对照这些原则,对自己的输出进行反思与修正。

如今,这种「防爆层思维」已经贯穿在Anthropic的所有产品里。

Claude 4.5能在输出前自检逻辑漏洞;Claude Code默认开启安全审查,防止生成危险命令;企业版Claude在系统层面设置了数据隔离与权限控制。

当别人都在比谁更聪明时,Anthropic选择比谁更稳。它相信,AI真正的进步,不在于突破边界,而在于学会克制,懂得停下

Claude:让「安全」成为智能的一部分

如果「防爆层思维」是Anthropic的发展路线图,那么Claude系列产品就是这条路线图上的里程碑。

2025年9月,Anthropic正式推出Claude Sonnet 4.5,在官方宣告中强调其在编码、推理与工具协作上的全面提升。

这一代模型被称为「最对齐的前沿模型」,在对齐、安全行为上比之前有显著进步。

Anthropic在Claude Code上也同步发力,将其整合进团队版和企业版订阅中。

Claude Code是一个面向开发者的命令行工具,它能理解代码库上下文、执行代码操作、生成PR,深化AI与开发环境的融合。

在企业级场景里,Claude Enterprise版本进一步强化安全和权限控制机制。

它提供扩展的上下文窗口、更多使用额度、与GitHub的原生集成,以及单点登录 (SSO)、基于角色的权限控制 (RBAC) 和管理员工具等安全特性。

从Claude Sonnet 4.5到Claude Code、再到Claude Enterprise,Anthropic正在用产品铺设一条安全路线。

在别的AI厂商追求「更强性能」的时候,Anthropic把「稳健、安全」作为自己的差异化竞争力。

它的命题是:AI的未来,不是更聪明,而是更可靠、更懂边界

AI的力量,来自人类写下的每一个词。

我们喂给它知识,也喂给它偏见、错误与欲望。

Anthropic的实验提醒我们:智能的风险,从来不在机器,而在于人。

当几百篇网页就能改变一个模型的行为,我们或许更该问的,是——在让AI学习世界之前,我们准备好了让世界被它学习吗?

参考资料:
https://www.anthropic.com/research/small-samples-poison
www.anthropic.com

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652633402&amp;idx=1&amp;sn=3d2f3fb514a73e9815d9e109fef1217c&amp;chksm=f0f1ac24b821699c3eb16339b805e1b4c056f334656453821afe0f433a5b4d9e88117725f694&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/Imlcmyv1xy&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们