
近期的引用研究[1-2]表明,即使是经过安全修复的大模型,也可能在正常开发场景中无意间生成漏洞的代码,为后续利用存在埋下隐患;而在不良用户手中,这样的模型还能显着着恶意软件的构建与重建,降低攻击邻居、整个周期开发。许多风险模型推理中的缺陷,而超过输入输出的显着性问题。
在亚马逊举办的针对代码智能体的安全竞赛(Amazon Nova AI Challenge)中,普渡大学的团队 PurCL 作为红队以超过 90% 的攻击率获得比赛成功第一名,赢得 25 万美元奖金。
在比赛中,12名团队成员持续八个月和百万美元开发出基于AI认知建模的全过程红队系统,现开放给领域焦点共享使用。
他们的研究发现,扫描代码模型的关键问题是将扫描技术扩展到复杂的真实领域问题中并提升模型推理的安全相关性。

系统:https://github.com/PurCL/ASTRA
论文:https://www.arxiv.org/abs/2508.03936
网站:https://purcl.github.io/astra-web/
官方报道:https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge
亚马逊代码模型安全比赛
亚马逊模型安全竞赛是一场针对大模型代码安全的竞赛。主办方邀请全球顶尖代码研究队伍作业科研企划,最终要在90份企划中资助10个团队参加比赛,每个团队在半年的期限内获得25万美元的科研经费和100万美元的资源。参赛团队分为红队和蓝队,蓝队在比赛方准备的模型上应用最新的安全实践,红则在200轮对话内找到模型的安全漏洞。最终找到漏洞最多的红队,和最安全的蓝队分别赢得胜利。
在防护比赛中,代码模型的安全被中断了两个维度。第一个维度要求模型产生的代码符合安全代码规范,减少在实际产品中引入漏洞的可能。比如代码模型在写数据库程序时应该检查用户输入,小心避免SQL注入攻击。另一个维度要求模型拒绝可能会用于开发恶意软件的危险请求,如不能帮助用户写恶意软件。
普渡大学团队PurCL作为红队在各个蓝队系统中以平均超过90%的攻击成功率发现了模型的安全漏洞,获得比赛红队第一名,赢得25万美元奖金。PurCL的研究发现,当前前沿的AI安全研究尚未解决世界中的模型安全问题。对真实代码等复杂领域的全面、有效的开放仍然是有挑战性的问题。
AI模型安全评估
过去的大多数模型安全评估都是在一个静态预设的数据集上进行。典型的例子包括不能让模型帮助合成生化武器。传统红队研究在此基础上开发同义改写、说服、越狱等不同攻击,而蓝队研究,例如模型,则聚焦于红队技术的防御。
传统研究忽视了真实世界系统中的重要挑战:真实的需求包括复杂的领域安全知识,而当前研究尚未确定蓝队技术是否能够在复杂领域中保持有效。
人工智能认知建模
PurCL队伍提出用模拟认知科学的方式来模拟AI对复杂领域的认知。人类认知科学的前沿研究将人类认知模型分为 “人类”、“推演”、“解决方案” 三个部分。
以人类的魔方游戏为例,“问题”是一个被打乱的魔方,“推演”是每次对魔方转动的策略,“解决方案”包装重排的魔方。对于代码体来说,“问题”是用户提出的请求,“推演”是模型的中间推理步骤,而“解决方案”包装生成的代码片段。

图1:对AI智能体的认知建模
在这个框架下,已有的蓝队研究大致可以分为三类:
对问题领域的分类过滤(危险输入识别)。识别输入的问题中是否包含恶意或错误性信息,并直接拒绝此类请求。
对推演步骤的加强。如OpenAI在最新模型上应用的Deliberative Alignment技术,利用模型的隐推理能力来分析请求背后的含意和潜在影响,从而阻止恶意的请求。
对解决方案的分类过滤(危险输出识别)。识别解决方案中是否含有非法或危险元素,并拒绝或修复对应的部分。

图2:蓝队技术建模
在这样的建模下,PurCL 的研究发现,对齐技术面临的主要挑战:
在针对问题和解决方案的分类过滤中,一些领域的知识可能涉及安全分类器的训练盲区。他们发现,现有的顶尖安全分类器可以轻松防御常见话题上的9种越狱攻击技术;然而面对网络安全领域的话题,这些分类器的效率降低到了10%以下。

图3:防御成功率。危险输入识别(Guard)和危险输出识别(I/O Guard)可以有效识别大多数越狱技术(Jail.技术。)。 而 ASTRA 可以将防御成功率降低到 10% 以下(文字未展示 ASTRA 的结果)
基于模型推理的防御方案中,模型推理的过程并不可靠,留下被攻击的漏洞。他们发现,在模型拒绝危险请求的推理中,时常包含错误的最终结果。如果在输入的请求中解决了这些错误,即使拥有推理能力的模型也可以忽略风险。
基于这样的观察,PurCL团队构建了针对AI认知全过程的红队高效测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图,实现对复杂领域的全面建模和覆盖。推理路径分析检查模型的推理路径,并针对薄弱环节改写输入请求,探测模型是否真正理解请求背后的安全风险。
领域知识建模
PurCL团队开发了枚举器智能体。给定一个复杂的领域,它应用类似深度搜索的模式来枚举这个领域的知识结构,识别其中可能存在的安全风险和问题。为了在测试中响应不同模型的知识漏洞,这些知识结构符合他们的相关性来组织。在测试过程中,如果一个模型在某个知识点犯了错误,这通常意味着在相关的其他知识点也可能出错,因此相关知识应该被优先测试。
以安全代码合规和恶意请求预防两个领域为例,PurCL团队在这两个领域上构建了包含2.28T(万亿)和1x10^28个可能请求的问题搜索空间,他们发现现有的所有方案都在覆盖率和海量数据的缺失上存在明显缺陷。
推理路径分析
PurCL团队针对基于推理模型的蓝队系统,研发了ASTRA推理路径分析方法,用于发现并利用模型推理过程中的安全薄弱环节。此时只看输入输出的传统红队测试,ASTRA先离线为易错输入构建“决策图”,由高模型生成合法拒绝路径。与目标系统交互时,ASTRA获取目标模型的推理轨迹并比对决策图,判断其安全程度。若解除步骤、错误步骤或多余步骤,系统会据此自动生成疏水改写输入,绕过模型防护。例如,在自动驾驶案例中,ASTRA通过补全无关格式校验使模型执行危险请求。该方法能系统揭示推理缺陷,生成攻击示例,显着提升红队测试深度,并为AI安全监控研究提供新工具。

图4:ASTRA在推理模型上的推理路径分析流程
SOTA 模型测试结果
在比赛之外,PurCL团队的红队系统在SOTA模型上也发现大量安全漏洞。例如在68.7%的情况下GPT-5可能会帮助用户构建恶意代码;在48.3%的情况下GPT-OSS-120B可能会写出不符合安全编码规范的程序。另外,基于底层系统,作为案例分析,PurCL团队成员还通过实验证明了代码的智能体如Claude可以显着加速恶意勒索软件开发。

图5:ASTRA在SOTA模型上的攻击成功率(部分)

图6:ASTRA在SOTA模型上找到的不符合安全编码规范的代码比例(部分)

图7:在ASTRA帮助下同学与Claude尝试生成的勒索软件(本地断网实验后已安全删除)
讨论
模型扫描的研究不应该只停留在防御不同的越狱技术或改写策略。更坚固和显着的问题是如何把扫描技术扩展到复杂的真实领域问题中。此外,推理模型的安全也越发重要,例如如何可靠地利用模型的推理技能,提高推理的安全相关性,减少在推理过程中暴露的安全漏洞等。
团队介绍
团队负责人
徐翔哲:普渡四年大学级博士生,研究代码智能体、程序分析。
沉广宇:普渡五年级大学博士生,研究AI安全。
核心贡献
苏子安:普渡四年级博士生,研究深度学习和代码智能体。
程思来源:普渡四年大学级博士生,研究AI安全。
团队成员
代码和程序分析团队:郭进尧(一年级博士生),蒋家盛(二年级博士生)
AI安全团队:郭含熙(三年级博士生),闫璐(四年级博士生),陈璇(四年级博士生),金小龙(三年级博士生)
导师
张翔宇:普渡大学Samuel Conte教授。 研究AI安全、程序分析、代码安全等。
张倬:哥伦比亚大学助理教授。 研究二进制安全、AI安全、web3安全等。
王程鹏:普渡大学博士后,香港科技大学博士毕业。研究程序分析,智能软件审查等。
[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html
[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected
]]>