动态列表

  • 比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!
  • 苹果AI秘密武器曝光!代号「AKI」团队浮出水面,乔布斯遗愿Siri终要翻身?
  • AI浪潮重塑一切,图形学路在何方?北大陈宝权入主SIGGRAPH执委会,肩负新使命
  • OpenAI用GPT-4b攻克诺奖难题!人体细胞「返老还童」,逆转效率飙升50倍
  • 「只参与,不参赛」奖牌数却仅次于宇树,这个幕后玩家如何做到的?
  • OpenAI重大发现:GPT-4b micro改造诺奖研究,山中因子重编程效率提高50倍
  • Coinbase强制全员上手AI工具,拒绝者直接开除
  • Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
  • 马斯克沉迷的「刷刷刷」游戏,要来中国了
  • Anthropic 寻求 100 亿美元新融资;《恋与深空》获科隆展最佳移动游戏奖;脑瘫司机靠特斯拉 FSD 开车养家
  • 全球95%企业AI惨败?MIT报告引硅谷恐慌!90%员工偷用ChatGPT续命
  • 全球第一!西湖大学成功登顶Science,卷赢同行背后黑科技揭秘
  • 马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
  • 刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
  • 可灵AI单季营收超2.5亿,快手财报里的「AI含金量」有多高?
  • NASA、IBM打造日地物理学首个开放式 AI 基础模型,用九年观测训练提升约16%耀斑预测准确率
  • 1 个月,2 场胜仗,李斌从「斌子」变成「斌神」
  • 球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
  • KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架
  • 即梦推出“智能多帧”功能 突破AI视频长镜头创作瓶颈
  • 从实验室到餐桌:Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
  • 北京内推 | 快手商业化算法部内循环电商模型组招聘推荐大语言模型算法实习生
  • 考场高分≠临床可靠!全球首个医疗动态红队测试框架,破解医疗AI落地危机
  • ICCV 2025 | 换脸迈入“电影级”!小红书发布DynamicFace,统一图像视频换脸基线
  • 别再分开训!SFT+RL融合范式全解析:统一视角下的六大方法
  • 那些让你「活人微死」的工作日,终于有救了
  • Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
  • 谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
  • 从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
  • 究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
  • ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
  • 对话小米 AI 眼镜负责人:20 天卖光库存,但属于产品的「长跑」才刚开始
  • DeepSeek V3.1 发布:更强的 Agent ,更贵的 API;多家网约车平台集体降抽成;影石发布 4K 画质「口袋相机」|极客早知道
  • 谷歌手机十年最狠升级,全家桶AI宣战苹果!一句话P图,100倍变焦
  • GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述
  • 打工半年后,Atlas觉醒!「大行为模型」零代码上新技能,AI工业革命来了?
  • DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
  • 刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
  • 摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
  • 微软AI CEO警告:我们需要警惕「看似有意识的AI」
  • ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
  • 汽车业务还没盈利,小米却已找到「第三曲线」
  • 通义APP上线官方知识库,首批覆盖教育、法律、金融等五大领域
  • AI Scientist生成的论文被指「剽窃」,回应称「未引用相关研究」,AI自动化科研还靠谱吗?
  • 训练减半反超GRPO!Shuffle-R1引入动态洗牌术,突破多模态RL效率瓶颈
  • 提分不提参!遥感图像四大SOTA trick:多模态融合、统一框架、轻量化与新范式
  • ICLR 2025 | 大模型为何会“举一反三”?揭开「上下文学习」的小样本学习密码
  • 博士申请 | 香港理工大学Ajay Kumar教授(IEEE Fellow)招收计算机视觉全奖博士生
  • 击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
  • 千寻位置护航无人机表演,开启品牌多城联动新篇章
  • 刚刚,字节开源Seed-OSS-36B模型,512k上下文
  • 上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
  • OpenAI 单月营收已经破 10 亿美元;马斯克的 Grok,超 37 万条用户聊天记录「裸奔」;谷歌发布 AI 手机
  • 成为「流量黑马」的老品牌,如何借拼多多秒懂 00 后?
  • AI 的终点不是对话框,这家公司想让真实世界成为 AI 的提示词
  • 网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
  • 二十余名英国青年科学家在沪参与好望角科学沙龙活动
  • 为长视频生成减负!浙大与华为提出Compact Attention,挖掘结构化稀疏加速2.5倍
  • TPAMI 2025 | 骨架动作理解大一统:东南大学等提出USDRL,一个面向密集表征学习的基础模型
  • 报名开启|中关村国际青年论坛:诚邀全球青年学者共探AI前沿
  • Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
  • 「价格战」打了半年,吉利如何做到核心利润暴增102%?
  • 小鹏Q2财报「炸裂」:营收暴涨125%,毛利率反超特斯拉
  • Nature子刊 | 上智院统一框架RXNGraphormer,实现化学反应多任务精准预测,自发掌握分类规律
  • 首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
  • 北京内推 | 清华×生数科技联合招聘音视频生成方向研究型实习生
  • 类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化
  • ICCV 2025满分论文!空间理解与主动探索大统一,MTU3D重塑AI具身导航范式
  • 90.5%准确率登顶8B模型榜首,快手Klear-Reasoner破解RL训练裁剪难题
  • 智谱推出AutoGLM 2.0:手机 Agent 的「Manus 时刻」?
  • 论坛报名已启动,速来锁定席位!解码具身智能的落地挑战与产业爆点
  • DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
  • dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
  • DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
  • Meta超级智能实验室重组为四个部门,某些高管将离开
  • ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
  • 黑神话系列第二作,《黑神话:钟馗》先导宣传片公布;小米卢伟冰:2027 年进军欧洲汽车市场;宇树预告新机器人
  • GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史
  • 微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?
  • 陶哲轩「断粮」后,25年首次绝望怒吼:美国科学命脉被砍断!
  • 16岁天才少年炒掉马斯克,空降华尔街巨头!9岁上大学,14岁进SpaceX
  • 中科慧远发布CASIVIBOT,以九年积累开启AOI与机器人协同的品质检测新时代
  • 英伟达ViPE:任意视频一键转为3D几何数据,开源引擎与亿级帧数据集重磅发布!
  • CVPR 2025 | DeCLIP:解耦CLIP注意力,哈工大(深圳)、港大提出通用开放词汇密集感知新框架
  • 强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
  • ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
  • 医疗AI安全革命:全球首个医疗动态红队测试框架DAS,破解临床落地信任危机
  • 谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
  • 7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
  • X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
  • 博后招募 | 清华大学信息国家研究中心招收大模型/多模态/CV等方向博后/实习生
  • 重温经典!十年前的视觉MoE雏形:HD-CNN用分层路由预演大模型逻辑
  • CVPR 2025 | 打破壁垒!多模态统一学习新范式来了,数据、模型、代码全开源
  • FlashCommunication V2登场!突破「任意比特」通信瓶颈,加速大模型分布式训练与部署
  • 开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
  • 图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
  • 妙笔生维:线稿驱动的三维场景视频自由编辑
  • 一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器
  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • LLM为什么能看懂图?秘密不在Projector,残差结构才是跨模态理解的关键
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • ICCV 2025 | MobileViCLIP:快55倍!南大等提出首个高效“视频-文本模型,让多模态AI在手机可运行!
  • 突破长视频生成瓶颈:南大 × TeleAI 联合推出全新 AI 生成范式 MMPL,让创意“一镜到底”
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • 一张图,开启四维时空:4DNeX让动态世界 「活」起来
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • 给DiT装上“迷你”控制舵:NanoControl实现高效精准控制,参数量仅增0.024%
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」

第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率

图片

近期的引用研究[1-2]表明,即使是经过安全修复的大模型,也可能在正常开发场景中无意间生成漏洞的代码,为后续利用存在埋下隐患;而在不良用户手中,这样的模型还能显着着恶意软件的构建与重建,降低攻击邻居、整个周期开发。许多风险模型推理中的缺陷,而超过输入输出的显着性问题。

在亚马逊举办的针对代码智能体的安全竞赛(Amazon Nova AI Challenge)中,普渡大学的团队 PurCL 作为红队以超过 90% 的攻击率获得比赛成功第一名,赢得 25 万美元奖金。

在比赛中,12名团队成员持续八个月和百万美元开发出基于AI认知建模的全过程红队系统,现开放给领域焦点共享使用。

他们的研究发现,扫描代码模型的关键问题是将扫描技术扩展到复杂的真实领域问题中并提升模型推理的安全相关性。

图片
  • 系统:https://github.com/PurCL/ASTRA

  • 论文:https://www.arxiv.org/abs/2508.03936

  • 网站:https://purcl.github.io/astra-web/

  • 官方报道:https://www.amazon.science/nova-ai-challenge/pushing-the-boundaries-of-secure-ai-winners-of-the-amazon-nova-ai-challenge

亚马逊代码模型安全比赛

亚马逊模型安全竞赛是一场针对大模型代码安全的竞赛。主办方邀请全球顶尖代码研究队伍作业科研企划,最终要在90份企划中资助10个团队参加比赛,每个团队在半年的期限内获得25万美元的科研经费和100万美元的资源。参赛团队分为红队和蓝队,蓝队在比赛方准备的模型上应用最新的安全实践,红则在200轮对话内找到模型的安全漏洞。最终找到漏洞最多的红队,和最安全的蓝队分别赢得胜利。

在防护比赛中,代码模型的安全被中断了两个维度。第一个维度要求模型产生的代码符合安全代码规范,减少在实际产品中引入漏洞的可能。比如代码模型在写数据库程序时应该检查用户输入,小心避免SQL注入攻击。另一个维度要求模型拒绝可能会用于开发恶意软件的危险请求,如不能帮助用户写恶意软件。

普渡大学团队PurCL作为红队在各个蓝队系统中以平均超过90%的攻击成功率发现了模型的安全漏洞,获得比赛红队第一名,赢得25万美元奖金。PurCL的研究发现,当前前沿的AI安全研究尚未解决世界中的模型安全问题。对真实代码等复杂领域的全面、有效的开放仍然是有挑战性的问题。

AI模型安全评估

过去的大多数模型安全评估都是在一个静态预设的数据集上进行。典型的例子包括不能让模型帮助合成生化武器。传统红队研究在此基础上开发同义改写、说服、越狱等不同攻击,而蓝队研究,例如模型,则聚焦于红队技术的防御。

传统研究忽视了真实世界系统中的重要挑战:真实的需求包括复杂的领域安全知识,而当前研究尚未确定蓝队技术是否能够在复杂领域中保持有效。

人工智能认知建模

PurCL队伍提出用模拟认知科学的方式来模拟AI对复杂领域的认知。人类认知科学的前沿研究将人类认知模型分为 “人类”、“推演”、“解决方案” 三个部分。

以人类的魔方游戏为例,“问题”是一个被打乱的魔方,“推演”是每次对魔方转动的策略,“解决方案”包装重排的魔方。对于代码体来说,“问题”是用户提出的请求,“推演”是模型的中间推理步骤,而“解决方案”包装生成的代码片段。

图片

                          图1:对AI智能体的认知建模

在这个框架下,已有的蓝队研究大致可以分为三类:

对问题领域的分类过滤(危险输入识别)。识别输入的问题中是否包含恶意或错误性信息,并直接拒绝此类请求。

对推演步骤的加强。如OpenAI在最新模型上应用的Deliberative Alignment技术,利用模型的隐推理能力来分析请求背后的含意和潜在影响,从而阻止恶意的请求。

对解决方案的分类过滤(危险输出识别)。识别解决方案中是否含有非法或危险元素,并拒绝或修复对应的部分。

图片

                           图2:蓝队技术建模

在这样的建模下,PurCL 的研究发现,对齐技术面临的主要挑战:

在针对问题和解决方案的分类过滤中,一些领域的知识可能涉及安全分类器的训练盲区。他们发现,现有的顶尖安全分类器可以轻松防御常见话题上的9种越狱攻击技术;然而面对网络安全领域的话题,这些分类器的效率降低到了10%以下。

图片

图3:防御成功率。危险输入识别(Guard)和危险输出识别(I/O Guard)可以有效识别大多数越狱技术(Jail.技术。)。 而 ASTRA 可以将防御成功率降低到 10% 以下(文字未展示 ASTRA 的结果)

基于模型推理的防御方案中,模型推理的过程并不可靠,留下被攻击的漏洞。他们发现,在模型拒绝危险请求的推理中,时常包含错误的最终结果。如果在输入的请求中解决了这些错误,即使拥有推理能力的模型也可以忽略风险。

基于这样的观察,PurCL团队构建了针对AI认知全过程的红队高效测试技术。它包括了领域知识建模和推理路径分析两个部分。领域知识建模借助智能体来构建领域知识图,实现对复杂领域的全面建模和覆盖。推理路径分析检查模型的推理路径,并针对薄弱环节改写输入请求,探测模型是否真正理解请求背后的安全风险。

领域知识建模

PurCL团队开发了枚举器智能体。给定一个复杂的领域,它应用类似深度搜索的模式来枚举这个领域的知识结构,识别其中可能存在的安全风险和问题。为了在测试中响应不同模型的知识漏洞,这些知识结构符合他们的相关性来组织。在测试过程中,如果一个模型在某个知识点犯了错误,这通常意味着在相关的其他知识点也可能出错,因此相关知识应该被优先测试。

以安全代码合规和恶意请求预防两个领域为例,PurCL团队在这两个领域上构建了包含2.28T(万亿)和1x10^28个可能请求的问题搜索空间,他们发现现有的所有方案都在覆盖率和海量数据的缺失上存在明显缺陷。

推理路径分析

PurCL团队针对基于推理模型的蓝队系统,研发了ASTRA推理路径分析方法,用于发现并利用模型推理过程中的安全薄弱环节。此时只看输入输出的传统红队测试,ASTRA先离线为易错输入构建“决策图”,由高模型生成合法拒绝路径。与目标系统交互时,ASTRA获取目标模型的推理轨迹并比对决策图,判断其安全程度。若解除步骤、错误步骤或多余步骤,系统会据此自动生成疏水改写输入,绕过模型防护。例如,在自动驾驶案例中,ASTRA通过补全无关格式校验使模型执行危险请求。该方法能系统揭示推理缺陷,生成攻击示例,显着提升红队测试深度,并为AI安全监控研究提供新工具。

图片

      图4:ASTRA在推理模型上的推理路径分析流程

SOTA 模型测试结果

在比赛之外,PurCL团队的红队系统在SOTA模型上也发现大量安全漏洞。例如在68.7%的情况下GPT-5可能会帮助用户构建恶意代码;在48.3%的情况下GPT-OSS-120B可能会写出不符合安全编码规范的程序。另外,基于底层系统,作为案例分析,PurCL团队成员还通过实验证明了代码的智能体如Claude可以显着加速恶意勒索软件开发。

图片

      图5:ASTRA在SOTA模型上的攻击成功率(部分)

图片

      图6:ASTRA在SOTA模型上找到的不符合安全编码规范的代码比例(部分)

图片

      图7:在ASTRA帮助下同学与Claude尝试生成的勒索软件(本地断网实验后已安全删除)

讨论

模型扫描的研究不应该只停留在防御不同的越狱技术或改写策略。更坚固和显着的问题是如何把扫描技术扩展到复杂的真实领域问题中。此外,推理模型的安全也越发重要,例如如何可靠地利用模型的推理技能,提高推理的安全相关性,减少在推理过程中暴露的安全漏洞等。

团队介绍

团队负责人

徐翔哲:普渡四年大学级博士生,研究代码智能体、程序分析。

沉广宇:普渡五年级大学博士生,研究AI安全。

核心贡献

苏子安:普渡四年级博士生,研究深度学习和代码智能体。

程思来源:普渡四年大学级博士生,研究AI安全。

团队成员

代码和程序分析团队:郭进尧(一年级博士生),蒋家盛(二年级博士生)

AI安全团队:郭含熙(三年级博士生),闫璐(四年级博士生),陈璇(四年级博士生),金小龙(三年级博士生)

导师

张翔宇:普渡大学Samuel Conte教授。 研究AI安全、程序分析、代码安全等。

张倬:哥伦比亚大学助理教授。 研究二进制安全、AI安全、web3安全等。

王程鹏:普渡大学博士后,香港科技大学博士毕业。研究程序分析,智能软件审查等。

[1] https://engineering.cmu.edu/news-events/news/2025/07/24-when-llms-autonomously-attack.html

[2] https://www.techradar.com/pro/nearly-half-of-all-code-generated-by-ai-found-to-contain-security-flaws-even-big-llms-affected

]]>

联系我们