原创 让你更懂AI的 2025-09-15 23:37 北京
免训练一招见效!
大语言模型(LLM)的滥用(如学术抄袭、虚假信息生成)推动了 LLM 文本检测器的发展,用于判别由模型生成的文本。
为规避这些检测器,研究人员提出了重写攻击,即有意重写文本以逃避检测。尽管已有一定成效,但现有方法需要大量数据与计算资源来训练专门的改写模型,并且在面对先进检测算法时效果显著下降。
为解决这一问题,我们提出了一种对比重写攻击(Contrastive Paraphrase Attack,CoPA),该方法无需额外训练,可利用现成的大模型生成更接近人类风格的文本,从而有效绕过主流检测器。该成果发布在 EMNLP 2025 上。
论文标题:
Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors
论文链接:
https://arxiv.org/abs/2505.15337
代码链接:
https://github.com/ffhibnese/CoPA_Contrastive_Paraphrase_Attacks
问题背景
大型语言模型(LLM),如 GPT-4 和 Claude-3.5,在文本理解与生成方面展现了卓越的能力。这些能力推动了它们在诸多领域的广泛应用,包括代码生成和学术研究等。
然而,LLM 的滥用问题也引发了广泛的社会关注,例如学术抄袭和虚假信息生成。为此,研究人员提出了多种检测方法,利用 LLM 生成文本所特有的统计特征,从不同角度加以识别,以缓解相关风险。
与此同时,红队对抗手段也被引入,用于评估这些检测算法的可靠性。这类对抗方法大体可分为词替换攻击和改写攻击两类。具体而言,词替换攻击通过替换生成文本中的特定重要词汇,以规避检测。
这种方法通常需要额外的代理模型来衡量词的重要性,且替换操作往往会显著提高句子的困惑度,从而使改写后的文本更容易被人类识别。
相比之下,Dipper 方法提出了一种基于重写的攻击策略。它通过改变句子结构和用词,重写整个段落来欺骗检测器。这种方法无需依赖代理模型,同时能够保持句子困惑度。
然而,Dipper 需要训练一个大型的生成式语言模型作为重写器,这带来了大量的计算开销。此外,在面对更先进的防御策略(如 Fast-DetectGPT)时,其攻击性能显著下降。
▲ 图1. 不同重写策略的对比,人类式和机器式提示分别用于指导大模型生成人类风格和机器风格的文本
算法动机与实现
在本文中,我们提出了一种无需训练的重写方法——对比重写攻击(Contrastive Paraphrase Attack,CoPA)。CoPA 的核心思想是利用现成的 LLM,通过构造对比分布,引导模型生成更接近人类写作风格的文本,从而规避检测。
具体而言,我们重新审视了现有检测算法的基本机制,并提出一个论断:有效的重写攻击的核心在于消除文本中的机器风格特征,同时注入更多人类文本风格特征,例如更加灵活的词汇选择和语法结构。
基于这一洞察,我们尝试通过提示词来缓解 LLM 内在的统计偏差,从而生成更类人的词分布(如图 1 所示)。
然而,由于 LLM 在大规模语料上训练时会自然优先选择高概率词以确保句子连贯性,这种固有偏差仍然严重地控制其输出有着机器风格。因此,即便采用人类文本风格提示,部分重写文本依旧保留了明显的机器特征,使其容易被检测器识别。
为解决这一难题,我们提出了一种基于逆向思维的策略——虽然直接生成和人类文本分布高度相似的文本很难,但生成带有机器化特征的分布相对容易。因此,我们构造了一个机器文本分布,将其作为负样本与先前构造的人类文本分布进行对比。
通过这种方式,CoPA 在解码过程中能够减去机器风格相关 token 的概率,从而得到更接近人类写作的分布。最终,CoPA 生成的文本不仅在语义上一致,同时在风格上也更难以被检测器识别。
▲ 图2. CoPA 示意图,对比重写成功地惩罚了 LLM 偏好的单词 “embarked”,并鼓励在下一个 token 采样中使用更灵活的单词选择。
具体而言,如图 2 所示,我们设计了一个人类文本风格提示 ,引导 LLM 生成更接近人类写作风格的词分布 ,除此之外,我们额外设计一个机器提示 ,诱导 LLM 生成典型的机器化分布 ,在重写大模型解码的过程中,将人类分布与机器分布进行对比修正,得到对比纯化分布:
其中 为调节参数,用于控制对比强度。这样,生成器在采样时会动态惩罚机器偏好,增强人类风格表达。同时,为避免错误惩罚合理词汇,我们引入基于置信度的自适应裁剪机制,仅在高置信度候选集内进行对比修正,保证文本的语义合理性与连贯性。
除了基于经验的分析,我们还构建了一个理论框架并证明了 CoPA 在模拟真实人类风格方面的优越性,得出的关键性定理如下:
定理 1:对于 ,如果 ,则 ,对于任意 ,有
其中 是真实人类文本分布, 是机器分布分布, 是使用 Prompt 让 LLM 输出的类似人类风格的分布。
该定理指出,在 的前提下,对于任意 均能满足所构造的对比分布比构造的人类风格分布 更加靠近真实的人类文本分布。具体推导过程请参考原论文。
实验结果
如表 1 所示,我们在三个主流文本数据集(XSum、SQuAD、LongQA)上,针对 8 种 AI 文本检测算法开展了系统全面的实验验证,证实了所提出算法的有效性。
▲ 表1. 使用来自三个不同数据集的 GPT-3.5-turbo 生成文本,对 8 种文本检测算法(FPR=5%)进行不同重写攻击的性能比较
更强的攻击效果。通过在词分布上进行自我校正,CoPA 在攻击效果上显著优于基线方法。例如,在三个数据集上,平均欺骗文本检测器的成功率提升了 30.55%。
尽管 Dipper 在部分检测器上表现尚可,但在面对更先进的算法(如 FastDetectGPT)时,其效果会显著下降。相比之下,CoPA 在多种检测器上始终展现出稳定而突出的攻击性能。
值得注意的是,尽管 Raidar-A 和 CoPA 使用了同一个 LLM 作为改写器,CoPA 仍然远超 Raidar-A,这验证了我们所设计的提示词与对比式改写机制的有效性。
良好的语义保持性。在改写文本的质量方面,我们的实验表明,CoPA 在多个数据集上的平均语义相似度超过 90%,这证明了该方法在改写过程中能够有效保持语义一致性。
虽然 Raidar-A 的文本相似度更高,但其攻击效果依然相当有限。相比之下,CoPA 同时在攻击效果和语义一致性上都取得了优异表现。
对于更多原模型和消融实验的结果,请参考原论文。
总结与思考
在本研究中,我们聚焦于针对 AI 生成文本检测器的红队攻击。我们首先指出了现有攻击方法存在的关键局限,并尝试通过提示词来缓解 LLM 内在的统计偏差。
在此基础上,本文提出 CoPA,一种简单而高效的针对 AI 生成文本检测器的释义攻击方法。CoPA 构造了一种机器风格的词元分布,作为负对比项,以减轻大语言模型(LLM)的语言偏差,并促进生成更加丰富和多样化的句子。
通过理论分析与实验验证,我们全面展示了该方法在多种场景下的优越性。我们将 CoPA 视为一种用于审计检测系统鲁棒性的有力工具,并期望其能够激发更鲁棒的检测算法的发展。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·