原创 让你更懂AI的 2025-10-10 13:17 北京
一条知识电路,揭开LLM最隐蔽的幻觉
当我们以为大模型的“幻觉”只是记错事实时,PhantomCircuit 揭示了一个更隐蔽的真相——模型其实记得,但被主流知识遮蔽了。
高频知识在神经电路中形成偏压,压制了那些低频却正确的事实,让模型“看见”世界的同时,也“看错”了世界。通过知识电路分析,研究团队首次追踪了这种遮蔽在训练过程中的生成与恢复,为理解和修复大模型幻觉提供了全新的视角。
当我们以为大模型的“幻觉”只是记错事实时,PhantomCircuit 揭示了一个更隐蔽的真相——模型其实记得,但被主流知识遮蔽了。
高频知识在神经电路中形成偏压,压制了那些低频却正确的事实,让模型“看见”世界的同时,也“看错”了世界。通过知识电路分析,研究团队首次追踪了这种遮蔽在训练过程中的生成与恢复,为理解和修复大模型幻觉提供了全新的视角。
知识遮蔽:当主流知识遮蔽了冷门知识
尽管大语言模型 (LLMs) 在各类任务中表现出色,但它们依然饱受"幻觉"困扰。其中一种尤为隐蔽的类型被称为知识遮蔽:当一个流行的知识被激活时,它会无意中压制另一个相关但更冷门的知识,导致模型输出错误答案——即使训练数据本身是高质量的。
举个例子:模型在学习"中国的某某中心"时,频繁看到"北京"作为答案,而较少看到"上海"。于是当被问及"中国最重要的经济中心是哪里?"时,模型仍可能回答"北京",而忽略了真正的答案"上海"。这就是知识遮蔽——高频知识压制了低频但正确的知识。
▲ 图1. 知识遮蔽示意图:高频的主流知识 (北京) 压制了低频的冷门知识 (上海)
现有方法:治标不治本
目前对知识遮蔽的研究主要停留在推理阶段的观察,比如分析模型输出是否错误,却很少深入其训练过程中的内部机制。这种"黑箱"式的分析难以揭示知识遮蔽究竟是如何在模型内部形成、演化、甚至被"固化"下来的。
▲ 图2. 知识遮蔽来源于不平衡数据的训练(a)。以往方法仅从输出层面分析 (b,c) ,而PhantomCircuit深入训练过程与模型内部决策机制 (d)
PhantomCircuit登场:用"知识电路"透视模型记忆
为了从根本上理解知识遮蔽,研究团队提出了 PhantomCircuit——一个基于知识电路分析的全新框架。知识电路可以看作是模型在处理特定任务时,内部各组件 (如注意力头、MLP 层) 之间形成的"信息流通路径"。
PhantomCircuit 通过构建并分析这些路径,揭示知识遮蔽是如何在训练过程中产生并且"固化"到模型内部的。
具体来说,PhantomCircuit 做了三件事:
1. 训练过程动态分析:追踪知识遮蔽从出现到恢复的全过程;
2. 知识电路构建与分析:识别关键注意力头与信息流动路径;
3. 电路优化与遮蔽恢复:通过剪枝不重要连接,增强模型对冷门知识的识别能力。
论文标题:
Pierce the Mists, Greet the Sky: Decipher Knowledge Overshadowing via Knowledge Circuit Analysis
作者机构:
港科大 (广州) 、港科大、上海交大、南洋理工
论文链接:
https://arxiv.org/pdf/2505.14406
代码链接:
https://github.com/halfmorepiece/PhantomCircuit
实验结果:三大发现揭示知识遮蔽本质
发现一:训练过程中的"遮蔽动态"受三大因素影响
研究团队系统性地控制了三个关键因素:知识流行度 (P) 、模型规模 (M)、数据集大小 (D),并观察它们如何影响遮蔽现象的出现、持续与恢复。其中知识流行度 (P) 可以看作数据集中主流知识 (如"中国的某某中心是北京") 与冷门的知识 (如"中国的某某中心是上海") 中出现频次的比值。
P 越高、M 越大,遮蔽现象出现越早,但恢复也越快;
D 越大,遮蔽出现也越早,但恢复过程更慢、更困难,是一个长尾式的恢复曲线。
▲ 图3. 不同 P、M、D 设置下,知识遮蔽率 (RO) 在训练过程中的变化
基于这一发现,研究团队推测:像 Llama-7B 这样的语言模型之所以在预训练后仍存在持续幻觉,正是因为其训练数据规模巨大、模型尺寸相对较小,产生了长尾式的知识遮蔽恢复曲线,从而导致预训练结束时取出的模型的知识遮蔽效应仍有残留。
▲ 图4. 巨大的数据规模和相对较小的模型尺寸导致了模型易于残留知识遮蔽效应
发现二:知识电路中的"注意力头"是关键角色
通过分析训练过程中模型的知识电路,研究团队发现:
模型对冷门知识与主流知识之间的差异部分越关注,知识遮蔽效应越弱,如图5(a);
某些高注意力头会显著加强对冷门知识差异部分的关注,其出现与消失影响了知识遮蔽效应的强弱,如图5(b);
电路结构可以识别出对知识遮蔽效应关键的信息流和节点,如图5(c)。
▲ 图5. 基于知识电路对知识遮蔽进行分析,发现模型对冷门知识与主流知识之间差异部分的注意力非常关键
此外,团队还进行了电路忠诚性分析,通过 消除消融实验验证了这些高注意力头对模型输出的关键影响——移除它们会导致模型性能显著下降。
▲ 表1. 移除高注意力头后,模型性能与注意力分数显著下降
发现三:基于电路优化的遮蔽恢复方法
基于上述发现,PhantomCircuit 进一步提供了一种可能的基于电路的遮蔽优化方案,通过调整电路中的边连接数,增强模型对冷门知识的识别能力。在实验中,该方法成功在多个测试案例中实现了遮蔽恢复,使模型从错误输出转为正确输出。
▲ 图6. 基于知识电路的知识遮蔽恢复方法
总结:为理解知识遮蔽幻觉提供新视角
PhantomCircuit 不仅首次系统性地揭示了知识遮蔽在训练过程中的动态演化规律,还通过知识电路分析提供了可解释的内部机制视角。同时,它展示了一种无需重新训练、通过优化电路的方法来缓解幻觉的潜在方案。
未来,这一方法有望扩展到更多类型的幻觉分析中,成为理解和改善大模型可靠性的重要工具。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·