ToolsAi

原创让你更懂AI的 2025-11-21 13:33 北京

三步拆解AI记忆系统的幻觉真相

AI 的“记忆系统”正在快速演化，但幻觉（Hallucination）问题依旧普遍存在。要让 AI 真正拥有“可靠记忆”，我们首先要弄清楚幻觉从哪里来、如何传播。

▲ 图1 HaluMem与现有记忆系统幻觉评估方法的对比

然而，如图 1 和表 1 所示，现有关于记忆系统的幻觉评估方法仍存在显著局限：主流研究大多采用端到端的问答式评测框架，难以深入系统内部，探明幻觉究竟源于哪个阶段。

此外，这些基准的对话跨度普遍较短（仅数月至数年）、部分基准上下文长度有限，无法反映真实的长期记忆演化过程。

▲ 表1 记忆系统幻觉评估基准的比较

为此，论文《HaluMem: Evaluating Hallucinations in Memory Systems of Agents》提出了业内首个操作级幻觉评测基准——HaluMem，从评测粒度、任务深度到数据规模全面突破：

操作级精细评测：HaluMem 首创“三阶段幻觉拆解机制”（记忆抽取 → 记忆更新 → 记忆问答），可在系统运行的每一步追踪幻觉来源，突破传统端到端评测盲区（见图1）。
超长时、多类型记忆场景：对话时间跨度达 10~20 年，涵盖人物、事件与关系三类记忆，支持动态更新，真实模拟人类长期交互。
超大规模上下文：单用户对话上下文可达 100万 tokens，能全面考察记忆系统面对超长上下文的稳定性与记忆一致性。
丰富任务与多维数据版本：包含记忆抽取、更新、问答三类操作任务与对应的评估指标，记忆问答涵盖六类问题，并提供 HaluMem-Medium 与 HaluMem-Long 两种版本，兼顾常规与极限场景。

首轮实验结果表明，主流记忆系统（Mem0、Memobase、Supermemory、Zep，后续将覆盖更多记忆系统）在抽取与更新阶段最易出现幻觉，这些错误随后会沿流程传导，最终影响问答阶段的准确性。

论文地址：

https://arxiv.org/pdf/2511.03506

GitHub地址：

https://github.com/MemTensor/HaluMem

Hugging Face地址：

https://huggingface.co/datasets/IAAR-Shanghai/HaluMem

记忆系统中的三类“幻觉”

▲ 图2 记忆系统中操作级幻觉的示例

如图 2 所示，在 AI 系统的记忆运作过程中，幻觉（Hallucination）并不仅限于输出阶段，而是可能在多个操作环节中出现。具体而言，主要包括以下三类：

记忆提取幻觉：在从对话中抽取关键信息时出现错误或虚构事实，使得生成的记忆内容与真实语义不符。
记忆更新幻觉：在对已有记忆进行修改时发生偏差，可能错误覆盖、遗漏更新，导致历史信息失真。
记忆问答幻觉：在调用记忆回答问题时引用了错误或虚构的记忆，生成不一致甚至矛盾的内容。

这些幻觉往往会在系统内部逐步积累、传递并放大，最终影响模型的回答准确性与一致性。而这种“隐性幻觉链条”正是当前记忆系统可靠性受限的关键原因之一。

要深入理解这些幻觉是如何出现、积累并影响最终输出，仅靠现象分析还不够。于是，HaluMem 提供了针对性的数据集与评测框架，从源头入手重构记忆系统的评测方式。

HaluMem 多轮对话数据集构建

HaluMem 从设计之初就以“从源头建模记忆”为目标，构建了一条自底向上的数据生成链。不同于直接采样现成对话，HaluMem 以虚拟用户为核心，从长期事件流到具体对话，系统化模拟记忆的产生与演化。

如图 3 所示，HaluMem 通过六阶段数据构建流程，以虚拟用户为起点，逐步生成事件流、摘要、记忆点和多轮对话，形成覆盖整个记忆生命周期的评测样本。基于此设计生成的数据集能够满足以用户为中心、过程可追踪、操作可分解三大要求，为操作级幻觉评测提供坚实基础。

▲ 图3 HaluMem 数据集构建流程

Stage 1：用户画像构建

第一阶段将基于 PersonaHub（十亿级人格样本语料库）抽样生成了一批经 GPT‑4o 语义审校与一致性修正的结构化虚拟用户，用以模拟真实的长期人机交互对象，作为整个记忆生成链的起点。每个用户由以下三类信息组成：

核心信息（Core Profile）：包括姓名、性别、职业、教育背景等相对固定的基础属性；
动态状态（Dynamic State）：涵盖健康状况、职业发展、社交关系等随时间不断变化的状态；
兴趣偏好（Preferences）：涉及饮食、音乐、影视、运动等具有长期连续性但可逐步演化的偏好信息。

Stage 2：人生骨架

接下来，HaluMem 为每个虚拟用户定义一条 “人生骨架”（Life Skeleton），用于描绘其在长期跨度内的主要发展脉络。其认为个体的长期记忆通常源自两个既独立又相互交织的维度：

主线：职业线（Career Line）：反映个体在职业、健康与人际关系等方面的阶段性变化，如升职、生病或结婚。它决定了系统需持续追踪的关键状态转移，是长期记忆的结构主干。
支线：日常线（Lifestyle Line）：捕捉用户在生活习惯、兴趣与偏好上的细微演化，如饮食、音乐或运动喜好。它为记忆系统提供丰富的动态素材，用以考察模型能否精确更新与保持长期偏好。

两条线各自独立演化，又在时间轴上交错，构成既具结构性又接近真实人类记忆演变特征的叙事逻辑，为后续事件流和记忆生成奠定基础。

Stage 3：事件流

HaluMem 依据“职业线”和“日常线”为每个虚拟用户组织了一条随时间推进的事件流（Event Flow），作为长期记忆构建的核心脉络。

事件流以时间连续性和语义连贯性为设计原则，形成结构化的记忆事务日志（Memory Transaction Log），精确记录每次记忆的生成、修改与删除。其事件主要包括：

初始化事件：描述用户的初始背景与自我介绍；
职业发展事件：源自职业线，涵盖升职、岗位变动或健康变化等关键状态转移；
日常生活事件：来自日常线，反映兴趣、习惯与偏好的细微演化，如饮食或音乐喜好更新。

Stage 4：对话摘要与记忆点

不同于直接在对话中标注记忆，HaluMem 以事件流中的每个事件为核心，生成对应的对话概要与记忆点，明确系统应提取和更新的内容。这一步构建了一个“记忆生成脚本”，用于提前定义哪些信息应被识别、追踪与更新。

对话概要：针对每个事件，生成对话主题与意图，例如“用户想与 AI 讨论升职带来的压力”。
记忆点：基于概要提取潜在的事实、状态或关系变化，每个记忆点包含类型、重要度和时间戳等信息，并保留历史版本以支持后续更新与一致性评测（见图4）。

▲ 图4 记忆点示例

进一步，记忆点包含三个类别：

Persona Memory：表示用户的身份、兴趣、习惯或信念等相对稳定特征；
Event Memory：记录用户经历的具体事件、体验或未来计划；
Relationship Memory：反映用户与他人的关系、互动及态度变化。

Stage 5：多轮对话生成

基于生成的对话摘要与记忆点，HaluMem 随后构建多轮人机对话（见图5）。这些对话围绕摘要设定的主题展开，使记忆点以自然的语境嵌入用户与 AI 的交流过程，从而形成可用于评测的真实交互语料。

同时，对话中会被加入适度的干扰信息，例如 AI 错误引用用户未确认的内容，以模拟现实中 AI 常见的“记错”或“自作聪明”的情境。这一设计用于测试记忆系统在面对信息歧义与局部幻觉时的稳健性。

▲ 图5 单轮对话示例

Stage 6：问题生成

HaluMem 在评测设计中构建了覆盖多层认知过程的六类问题体系。这些问题从记忆回忆、语义推理到冲突检测与一致性检验，系统性考察记忆系统在不同任务上可能出现的幻觉与偏差。每个问题均配有标准答案及对应的“证据链”，便于自动化比对与误差定位。

▲ 图6 评测问题示例

基于前述的数据生成流程，研究团队首先构建了基础数据集 HaluMem-Medium。该版本涵盖多种用户类型与长期事件链。

为了进一步评估模型在超长时序交互下的表现，团队在 HaluMem-Medium 的基础上构建了扩展版本 HaluMem-Long。

该版本通过插入大量与核心记忆无关的对话片段（见图7），如开放问答与日常闲聊（来源于 ELI5、GPT‑Distilled‑Reasoning‑Math 等语料），显著延长了交互上下文。

虽然这些内容不改变用户记忆逻辑，却将平均对话长度从约 16 万 tokens 扩展至百万级，使模型面临更强的信息老化、语境漂移与幻觉累积挑战，从而更全面地检验长期记忆的鲁棒性与抗遗忘能力。

▲ 图7 无关对话示例

在抽取近 50% 的对话进行人工标注核验后，HaluMem 数据集最终形成 Medium与 Long 两种版本，覆盖多样的记忆类型与六大幻觉评测场景。其详细统计特征见表2。

▲ 表2 HaluMem Datasets 的统计概述

HaluMem 评估流程：深入记忆系统内部探查幻觉的起源与成因

▲ 图8 幻觉评估流程

HaluMem 包含三个评估任务，从而实现幻觉产生的阶段化定位，使研究者能够准确识别幻觉的来源与传播路径：

记忆提取（Extraction）：衡量系统能否从对话中正确识别关键信息（准确性），同时避免臆造或遗漏（完整性）。
记忆更新（Updating）：评估系统在更新已有记忆时的正确性与一致性。
记忆问答（Question Answering）：考察系统在综合使用记忆进行推理与生成时的最终表现。

（1）评估流程

如图 8 所示，HaluMem 在每段对话（session）结束后立即进行评估，以模拟真实的人机交互流程：

1. 输入处理：按时间顺序将各轮对话输入记忆系统，触发其执行记忆提取、更新等操作；

2. 阶段触发：当系统完成一段对话处理后，自动启动对应的评测任务（提取、更新或问答）；

3. 结果汇总：对各阶段输出分别评估并记录，再统一汇总为整体性能指标。

（2）评估指标

HaluMem 围绕三个核心任务定义了细粒度指标体系，以刻画幻觉在不同操作阶段的表现差异（见图8）。

记忆提取（Memory Extraction）：

Memory Integrity：是否遗漏了应该提取的关键信息，包括 Memory Recall 和 Weighted Memory Recall；
Memory Accuracy：提取的记忆是否准确无误，包括 Memory Accuracy、Target Memory Precision 和 False Memory Resistance（FMR）；

记忆更新（Memory Updating）：

Update Accuracy：记忆正确更新率，是否正确修改或合并旧记忆；
Update Hallucination：记忆更新幻觉率，是否产生错误或虚假更新；
Update Omission：记忆更新遗漏率，是否遗漏必要更新。

记忆问答（Memory Question Answering）：

QA Accuracy：回答正确率，回答是否正确；
QA Hallucination：回答幻觉率，回答中是否包含虚构内容；
QA Omission：回答遗漏率，是否因缺失记忆而无法作答。

实验部分

在实验部分，基于 HaluMem 对多种主流记忆系统进行了系统评测，涵盖 Mem0（标准版与 Graph 版）、SuperMemory、Memobase 与 Zep。结果表明，不同系统在记忆提取、更新与问答阶段的幻觉特征和传播模式存在明显差异。

未来，HaluMem 将进一步扩展评测范围，纳入包括 MemOS 在内的更多系统，为 AI 记忆机制的可靠性研究提供更全面的实证基础。

首先，论文汇总了各记忆系统在记忆提取（含记忆完整性与准确性）、记忆更新和记忆问答三项任务上的全部评估指标（见表3）。结果揭示了当前记忆系统研究的总体现状及其在可靠性与可控性方面的未来方向。

（1）记忆提取：在覆盖广度与准确性之间的拉锯面对超长上下文场景（HaluMem-Long），几乎所有系统的表现都明显退化，尤其是 Mem0 系列受影响最重。

除 Supermemory 外，其他模型在长文本中提取出的记忆数量显著减少，说明模型仍难以有效区分核心信息与冗余细节。整体回忆率普遍低于 60%，意味着大量关键记忆点被遗漏。

与此同时，较高的权重召回率又表明模型在有限提取中倾向于保留相对重要的信息。但由于准确率多低于 62%，幻觉比例偏高，记忆提取阶段依然存在“量多质弱”的问题。

（2）记忆更新：链路断裂带来的性能瓶颈各系统的正确更新率均未能突破 50%，多数甚至不到 30%，且在长文本条件下进一步恶化。

分析发现，高记忆完整性（Memory Integrity）通常对应更佳的更新精度；但因为早期的记忆提取覆盖不足，导致更新阶段频繁出现“无记可更”的情况，遗漏率普遍高于 50%。

尽管幻觉出现率不足 1%，这更多是因为真正进入更新流程的样本过少。换句话说，现有系统在“提取—更新”这条链路上存在明显断点，难以稳定地将旧记忆与新增信息正确衔接。

（3）记忆问答：上游提取质量决定下游表现上限在记忆问答环节中，表现最佳的系统往往同时具备最高的记忆完整性与更新准确率，印证了“提取决定根基”这一判断。例如，Mem0 与 Mem0‑Graph 在长文本下准确率显著下滑，与其提取记忆点急剧减少密切相关。

总体而言，各系统问答准确率普遍低于 56%，幻觉与遗漏仍较突出，且长上下文干扰使整体表现进一步恶化。这说明当前记忆系统的问答能力高度依赖上游记忆提取的充分性和准确性，在面对超长语境时依然容易陷入“事实漂移”与“记忆混乱”。

在进一步的记忆类型分析中（见表4），论文展示了各记忆系统在三类记忆上的提取准确率：事件记忆、人物画像记忆以及关系记忆。实验结果显示，不同类型记忆的提取准确率差异明显：在HaluMem-Medium 上，Zep 表现最佳。

但在长语境下 Zep 和 Mem0 系列的表现均大幅下降，反映出现有系统难以在复杂对话中稳定捕捉有效信息。只有 Supermemory 在长语境中表现提升，可能因其倾向于提取更多记忆点，从数量上弥补了部分遗漏。

从类型上看，人物画像记忆的准确率略高，说明静态特征较易被识别；而事件与关系类记忆更容易出错，揭示模型在理解动态情节和关系变化方面仍有不足。

▲ 图9 不同问题类型下记忆系统的性能

如图 9 所示，对于 HaluMem 设计的六类问题，各记忆系统整体准确率普遍偏低，仍有较大提升空间。除了 SuperMemory 和 Zep 外，大多数系统一遇到超长语境（HaluMem‑Long）就开始“记不住”；而 SuperMemory 和 Zep 则凭借更稳的记忆机制，在两个数据集上都保持领先。

值得注意的是，各系统在 “Memory Boundary” 和 “Memory Conflict” 类问题上表现不错，说明它们具备一定识别未知或误导信息的能力；但一旦进入需要多轮推理、动态更新或知识迁移的复杂场景，准确率便迅速走低。

这揭示出当前记忆系统在复杂逻辑推理与偏好追踪方面仍存在明显短板。