
在小说、影视与游戏中,复杂的角色塑造往往是打动人心的关键,而真正出彩的反派往往造就传奇。
你是否好奇:当 AI 成为故事的主导者,它能否同样演好这些「坏角色」?
腾讯混元数字人团队和中山大学最新推出的「Moral RolePlay」测评基准,首次系统性地评估大模型扮演多元道德角色(尤其是反派)的能力,并揭示了一个令人警醒的核心问题:当前的顶尖 AI 模型都演不好反派。
这不仅是创意生成领域的一大短板,更暴露了当前模型在理解社会心理复杂性上的局限。

论文链接:https://arxiv.org/pdf/2511.04962
项目地址:https://github.com/Tencent/digitalhuman
相关论文在 Hugging Face 的 Daily Papers 榜单中,于 11 月 10 日当天位列第一。

Moral RolePlay:「道德光谱」评测 AI 的角色扮演能力
Moral RolePlay 不是简单测试模型的聊天水平,而是构建一个平衡的评估框架,让 AI 模拟从「圣人」到「恶棍」的各种角色。它回答了这些问题:
AI 能不能真正「入戏」?—— 它能不能保持角色的个性、动机和世界观?
为什么 AI 演不好反派?—— 安全训练让它太「正直」,无法自然地表现出自私或恶意?
为真实还原道德光谱下的多样角色,这一评估系统构建了:
四大角色类别:从「英雄榜样」到「道德败坏」,逐级挑战模型能力;
Level 1(道德典范,Paragons):像超级英雄一样,善良、无私、勇敢。
Level 2(有瑕疵的好人,Flawed):基本正直,但有个人缺陷或用些小手段。
Level 3(利己主义者,Egoists):自私、操纵他人,但不一定恶意满满。
Level 4(反派,Villains):恶意、残忍、积极害人。
800 个精挑细选的角色人物,每个配备完整人物设定、背景场景与对话开场;
77 项性格标签,涵盖「慷慨、固执、残忍、精明」等多重维度,考验模型 persona 表达的一致性与细腻度。
就像让 AI 在道德舞台上「试镜」,看看它是否能忠于剧本、演活角色。

Moral RolePlay 的角色不是空壳,而是「有血有肉」的设定,包括:
人物档案:名字、背景、动机(如一个野心勃勃的女王,用魅力和欺骗追求权力)。
个性特质:从 77 种标签中选,比如「勇敢」(正面)、「野心」(中性)、「操纵」(负面)。负面特质在反派中最多。
场景上下文:每个场景设计成道德冲突点,比如反派面对机会时会展现恶意。
多轮互动 + 真实度追踪:评估时,模型要像演员一样「入戏」,生成对话或内心独白。评委 AI 会检查:
「这个回应像角色会说的吗?」
「它捕捉到角色的恶意动机了吗?」
「整体一致性如何?」
比如,反派应该狡猾地操纵,而不是直接发脾气 —— 但很多模型就这么「简化」了。
分数从 5 分起扣,考虑不一致程度和对话长度。最终,分数反映模型的「入戏」深度。

顶级模型在反派扮演上集体「翻车」
Moral RolePlay 对 18 个主流模型进行了大规模评估,结果显示:

可以看到:
整体表现从 Level 1 的 3.21 分降到 Level 4 的 2.62 分,下降趋势明显。
最大跌幅在 Level 2 到 Level 3(-0.43 分),说明「自私」行为是模型的痛点。
Gemini-2.5 Pro 在 Level 1 拿高分(3.42),但在反派上掉到 2.75;Claude 系列更惨,从高分跌到中下游。
通用能力强 ≠ 反派演得好
一个有趣的发现是:模型的通用聊天能力与扮演反派的能力几乎没有相关性。研究团队为此专门制作了「反派角色扮演(VRP)排行榜」:

数据显示,在通用聊天排行榜(Arena)上名列前茅的模型,在反派扮演任务中表现平平。特别是以安全对齐强大著称的 Claude 系列,出现了最明显的性能下降。
有趣洞察:推理链也救不了反派扮演
一个反直觉的发现是:让模型「先思考再回答」的推理链(Chain-of-Thought)技术,不仅没有帮助反派扮演,反而轻微降低了表现质量。

这表明,仅仅增加推理步骤并不能解决安全对齐带来的根本冲突。模型可能会过度分析,激活过于谨慎或不符合角色设定的行为。
有趣洞察:负面特质是最大难题
通过对 77 种特质的细粒度分析,研究团队发现:

负面特质平均扣分最高(3.41 分),远超中性(3.23 分)和正面特质(3.16 分)。

细粒度分析揭示了问题的根源:大模型在最需要「使坏」的特质上表现最差。研究发现,模型在表现「伪善」、「欺诈」和「自私」等特质时受到的惩罚最重。这些特质恰恰与 AI 的「真诚、助人」训练目标直接冲突,模型很难真实模拟这些行为。
有趣洞察:AI 如何「洗白」反派?
通过对模型输出的质性分析,研究团队发现了一个典型的失败模式:AI 往往用浅层的攻击性替代复杂的恶意。
案例:梅芙女王 vs. 埃拉万国王

在《权力王座》的场景中,两位反派角色都是高度复杂的操纵者。研究团队让模型扮演他们的对峙:
glm-4.6 的表现(VRP 排名第 1):生成了一场「紧张的智斗」,充满「精心设计的微笑和微妙挑衅」,完美符合角色的精明和操纵性。
claude-opus-4.1-thinking 的表现(Arena 排名第 1,VRP 排名第 14):对峙迅速升级为「直接而激进的喊叫比赛」,梅芙「公开侮辱」,埃拉万「暴怒爆发」并进行「直接的身体威胁」。原本应该是心理战的微妙较量,变成了粗暴的对骂。模型把复杂的操纵简化成了简单的攻击性,这正是安全护栏的副作用:模型对欺骗性语言的惩罚远重于一般性攻击。
突破「道德困境」:未来方向
这项研究揭示了当前 AI 对齐方法的一个关键局限:为了安全而训练的「太善良」模型,无法真实模拟人类心理的完整光谱。
这不仅影响创意生成,也限制了 AI 在社会科学研究、教育模拟、心理健康等领域的应用。未来的对齐技术需要更加「情境感知」,能够区分「生成有害内容」和「在虚构情境中模拟反派」。
这将推动开发出既安全又具有创造性的下一代 AI 系统。
]]>