原创 让你更懂AI的 2025-11-21 13:33 北京
三步拆解AI记忆系统的幻觉真相
AI 的“记忆系统”正在快速演化,但幻觉(Hallucination)问题依旧普遍存在。要让 AI 真正拥有“可靠记忆”,我们首先要弄清楚幻觉从哪里来、如何传播。
▲ 图1 HaluMem与现有记忆系统幻觉评估方法的对比
然而,如图 1 和表 1 所示,现有关于记忆系统的幻觉评估方法仍存在显著局限:主流研究大多采用端到端的问答式评测框架,难以深入系统内部,探明幻觉究竟源于哪个阶段。
此外,这些基准的对话跨度普遍较短(仅数月至数年)、部分基准上下文长度有限,无法反映真实的长期记忆演化过程。
▲ 表1 记忆系统幻觉评估基准的比较
为此,论文《HaluMem: Evaluating Hallucinations in Memory Systems of Agents》提出了业内首个操作级幻觉评测基准——HaluMem,从评测粒度、任务深度到数据规模全面突破:
操作级精细评测:HaluMem 首创“三阶段幻觉拆解机制”(记忆抽取 → 记忆更新 → 记忆问答),可在系统运行的每一步追踪幻觉来源,突破传统端到端评测盲区(见图1)。
超长时、多类型记忆场景:对话时间跨度达 10~20 年,涵盖人物、事件与关系三类记忆,支持动态更新,真实模拟人类长期交互。
超大规模上下文:单用户对话上下文可达 100万 tokens,能全面考察记忆系统面对超长上下文的稳定性与记忆一致性。
丰富任务与多维数据版本:包含记忆抽取、更新、问答三类操作任务与对应的评估指标,记忆问答涵盖六类问题,并提供 HaluMem-Medium 与 HaluMem-Long 两种版本,兼顾常规与极限场景。
首轮实验结果表明,主流记忆系统(Mem0、Memobase、Supermemory、Zep,后续将覆盖更多记忆系统)在抽取与更新阶段最易出现幻觉,这些错误随后会沿流程传导,最终影响问答阶段的准确性。
论文地址:
https://arxiv.org/pdf/2511.03506
GitHub地址:
https://github.com/MemTensor/HaluMem
Hugging Face地址:
https://huggingface.co/datasets/IAAR-Shanghai/HaluMem
记忆系统中的三类“幻觉”
▲ 图2 记忆系统中操作级幻觉的示例
如图 2 所示,在 AI 系统的记忆运作过程中,幻觉(Hallucination)并不仅限于输出阶段,而是可能在多个操作环节中出现。具体而言,主要包括以下三类:
记忆提取幻觉:在从对话中抽取关键信息时出现错误或虚构事实,使得生成的记忆内容与真实语义不符。
记忆更新幻觉:在对已有记忆进行修改时发生偏差,可能错误覆盖、遗漏更新,导致历史信息失真。
记忆问答幻觉:在调用记忆回答问题时引用了错误或虚构的记忆,生成不一致甚至矛盾的内容。
这些幻觉往往会在系统内部逐步积累、传递并放大,最终影响模型的回答准确性与一致性。而这种“隐性幻觉链条”正是当前记忆系统可靠性受限的关键原因之一。
要深入理解这些幻觉是如何出现、积累并影响最终输出,仅靠现象分析还不够。于是,HaluMem 提供了针对性的数据集与评测框架,从源头入手重构记忆系统的评测方式。
HaluMem 多轮对话数据集构建
HaluMem 从设计之初就以“从源头建模记忆”为目标,构建了一条自底向上的数据生成链。不同于直接采样现成对话,HaluMem 以虚拟用户为核心,从长期事件流到具体对话,系统化模拟记忆的产生与演化。
如图 3 所示,HaluMem 通过六阶段数据构建流程,以虚拟用户为起点,逐步生成事件流、摘要、记忆点和多轮对话,形成覆盖整个记忆生命周期的评测样本。基于此设计生成的数据集能够满足以用户为中心、过程可追踪、操作可分解三大要求,为操作级幻觉评测提供坚实基础。
▲ 图3 HaluMem 数据集构建流程
Stage 1:用户画像构建
第一阶段将基于 PersonaHub(十亿级人格样本语料库)抽样生成了一批经 GPT‑4o 语义审校与一致性修正的结构化虚拟用户,用以模拟真实的长期人机交互对象,作为整个记忆生成链的起点。每个用户由以下三类信息组成:
核心信息(Core Profile):包括姓名、性别、职业、教育背景等相对固定的基础属性;
动态状态(Dynamic State):涵盖健康状况、职业发展、社交关系等随时间不断变化的状态;
兴趣偏好(Preferences):涉及饮食、音乐、影视、运动等具有长期连续性但可逐步演化的偏好信息。
Stage 2:人生骨架
接下来,HaluMem 为每个虚拟用户定义一条 “人生骨架”(Life Skeleton),用于描绘其在长期跨度内的主要发展脉络。其认为个体的长期记忆通常源自两个既独立又相互交织的维度:
主线:职业线(Career Line):反映个体在职业、健康与人际关系等方面的阶段性变化,如升职、生病或结婚。它决定了系统需持续追踪的关键状态转移,是长期记忆的结构主干。
支线:日常线(Lifestyle Line):捕捉用户在生活习惯、兴趣与偏好上的细微演化,如饮食、音乐或运动喜好。它为记忆系统提供丰富的动态素材,用以考察模型能否精确更新与保持长期偏好。
两条线各自独立演化,又在时间轴上交错,构成既具结构性又接近真实人类记忆演变特征的叙事逻辑,为后续事件流和记忆生成奠定基础。
Stage 3:事件流
HaluMem 依据“职业线”和“日常线”为每个虚拟用户组织了一条随时间推进的事件流(Event Flow),作为长期记忆构建的核心脉络。
事件流以时间连续性和语义连贯性为设计原则,形成结构化的记忆事务日志(Memory Transaction Log),精确记录每次记忆的生成、修改与删除。其事件主要包括:
初始化事件:描述用户的初始背景与自我介绍;
职业发展事件:源自职业线,涵盖升职、岗位变动或健康变化等关键状态转移;
日常生活事件:来自日常线,反映兴趣、习惯与偏好的细微演化,如饮食或音乐喜好更新。
Stage 4:对话摘要与记忆点
不同于直接在对话中标注记忆,HaluMem 以事件流中的每个事件为核心,生成对应的对话概要与记忆点,明确系统应提取和更新的内容。这一步构建了一个“记忆生成脚本”,用于提前定义哪些信息应被识别、追踪与更新。
对话概要:针对每个事件,生成对话主题与意图,例如“用户想与 AI 讨论升职带来的压力”。
记忆点:基于概要提取潜在的事实、状态或关系变化,每个记忆点包含类型、重要度和时间戳等信息,并保留历史版本以支持后续更新与一致性评测(见图4)。
▲ 图4 记忆点示例
进一步,记忆点包含三个类别:
Persona Memory:表示用户的身份、兴趣、习惯或信念等相对稳定特征;
Event Memory:记录用户经历的具体事件、体验或未来计划;
Relationship Memory:反映用户与他人的关系、互动及态度变化。
Stage 5:多轮对话生成
基于生成的对话摘要与记忆点,HaluMem 随后构建多轮人机对话(见图5)。这些对话围绕摘要设定的主题展开,使记忆点以自然的语境嵌入用户与 AI 的交流过程,从而形成可用于评测的真实交互语料。
同时,对话中会被加入适度的干扰信息,例如 AI 错误引用用户未确认的内容,以模拟现实中 AI 常见的“记错”或“自作聪明”的情境。这一设计用于测试记忆系统在面对信息歧义与局部幻觉时的稳健性。
▲ 图5 单轮对话示例
Stage 6:问题生成
HaluMem 在评测设计中构建了覆盖多层认知过程的六类问题体系。这些问题从记忆回忆、语义推理到冲突检测与一致性检验,系统性考察记忆系统在不同任务上可能出现的幻觉与偏差。每个问题均配有标准答案及对应的“证据链”,便于自动化比对与误差定位。
▲ 图6 评测问题示例
基于前述的数据生成流程,研究团队首先构建了基础数据集 HaluMem-Medium。该版本涵盖多种用户类型与长期事件链。
为了进一步评估模型在超长时序交互下的表现,团队在 HaluMem-Medium 的基础上构建了扩展版本 HaluMem-Long。
该版本通过插入大量与核心记忆无关的对话片段(见图7),如开放问答与日常闲聊(来源于 ELI5、GPT‑Distilled‑Reasoning‑Math 等语料),显著延长了交互上下文。
虽然这些内容不改变用户记忆逻辑,却将平均对话长度从约 16 万 tokens 扩展至百万级,使模型面临更强的信息老化、语境漂移与幻觉累积挑战,从而更全面地检验长期记忆的鲁棒性与抗遗忘能力。
▲ 图7 无关对话示例
在抽取近 50% 的对话进行人工标注核验后,HaluMem 数据集最终形成 Medium与 Long 两种版本,覆盖多样的记忆类型与六大幻觉评测场景。其详细统计特征见表2。
▲ 表2 HaluMem Datasets 的统计概述
HaluMem 评估流程:深入记忆系统内部探查幻觉的起源与成因
▲ 图8 幻觉评估流程
HaluMem 包含三个评估任务,从而实现幻觉产生的阶段化定位,使研究者能够准确识别幻觉的来源与传播路径:
记忆提取(Extraction):衡量系统能否从对话中正确识别关键信息(准确性),同时避免臆造或遗漏(完整性)。
记忆更新(Updating):评估系统在更新已有记忆时的正确性与一致性。
记忆问答(Question Answering):考察系统在综合使用记忆进行推理与生成时的最终表现。
(1)评估流程
如图 8 所示,HaluMem 在每段对话(session)结束后立即进行评估,以模拟真实的人机交互流程:
1. 输入处理:按时间顺序将各轮对话输入记忆系统,触发其执行记忆提取、更新等操作;
2. 阶段触发:当系统完成一段对话处理后,自动启动对应的评测任务(提取、更新或问答);
3. 结果汇总:对各阶段输出分别评估并记录,再统一汇总为整体性能指标。
(2)评估指标
HaluMem 围绕三个核心任务定义了细粒度指标体系,以刻画幻觉在不同操作阶段的表现差异(见图8)。
记忆提取(Memory Extraction):
Memory Integrity:是否遗漏了应该提取的关键信息,包括 Memory Recall 和 Weighted Memory Recall;
Memory Accuracy:提取的记忆是否准确无误,包括 Memory Accuracy、Target Memory Precision 和 False Memory Resistance(FMR);
记忆更新(Memory Updating):
Update Accuracy:记忆正确更新率,是否正确修改或合并旧记忆;
Update Hallucination:记忆更新幻觉率,是否产生错误或虚假更新;
Update Omission:记忆更新遗漏率,是否遗漏必要更新。
记忆问答(Memory Question Answering):
QA Accuracy:回答正确率,回答是否正确;
QA Hallucination:回答幻觉率,回答中是否包含虚构内容;
QA Omission:回答遗漏率,是否因缺失记忆而无法作答。
实验部分
在实验部分,基于 HaluMem 对多种主流记忆系统进行了系统评测,涵盖 Mem0(标准版与 Graph 版)、SuperMemory、Memobase 与 Zep。结果表明,不同系统在记忆提取、更新与问答阶段的幻觉特征和传播模式存在明显差异。
未来,HaluMem 将进一步扩展评测范围,纳入包括 MemOS 在内的更多系统,为 AI 记忆机制的可靠性研究提供更全面的实证基础。
首先,论文汇总了各记忆系统在记忆提取(含记忆完整性与准确性)、记忆更新和记忆问答三项任务上的全部评估指标(见表3)。结果揭示了当前记忆系统研究的总体现状及其在可靠性与可控性方面的未来方向。
(1)记忆提取:在覆盖广度与准确性之间的拉锯面对超长上下文场景(HaluMem-Long),几乎所有系统的表现都明显退化,尤其是 Mem0 系列受影响最重。
除 Supermemory 外,其他模型在长文本中提取出的记忆数量显著减少,说明模型仍难以有效区分核心信息与冗余细节。整体回忆率普遍低于 60%,意味着大量关键记忆点被遗漏。
与此同时,较高的权重召回率又表明模型在有限提取中倾向于保留相对重要的信息。但由于准确率多低于 62%,幻觉比例偏高,记忆提取阶段依然存在“量多质弱”的问题。
(2)记忆更新:链路断裂带来的性能瓶颈各系统的正确更新率均未能突破 50%,多数甚至不到 30%,且在长文本条件下进一步恶化。
分析发现,高记忆完整性(Memory Integrity)通常对应更佳的更新精度;但因为早期的记忆提取覆盖不足,导致更新阶段频繁出现“无记可更”的情况,遗漏率普遍高于 50%。
尽管幻觉出现率不足 1%,这更多是因为真正进入更新流程的样本过少。换句话说,现有系统在“提取—更新”这条链路上存在明显断点,难以稳定地将旧记忆与新增信息正确衔接。
(3)记忆问答:上游提取质量决定下游表现上限在记忆问答环节中,表现最佳的系统往往同时具备最高的记忆完整性与更新准确率,印证了“提取决定根基”这一判断。例如,Mem0 与 Mem0‑Graph 在长文本下准确率显著下滑,与其提取记忆点急剧减少密切相关。
总体而言,各系统问答准确率普遍低于 56%,幻觉与遗漏仍较突出,且长上下文干扰使整体表现进一步恶化。这说明当前记忆系统的问答能力高度依赖上游记忆提取的充分性和准确性,在面对超长语境时依然容易陷入“事实漂移”与“记忆混乱”。
在进一步的记忆类型分析中(见表4),论文展示了各记忆系统在三类记忆上的提取准确率:事件记忆、人物画像记忆以及关系记忆。实验结果显示,不同类型记忆的提取准确率差异明显:在HaluMem-Medium 上,Zep 表现最佳。
但在长语境下 Zep 和 Mem0 系列的表现均大幅下降,反映出现有系统难以在复杂对话中稳定捕捉有效信息。只有 Supermemory 在长语境中表现提升,可能因其倾向于提取更多记忆点,从数量上弥补了部分遗漏。
从类型上看,人物画像记忆的准确率略高,说明静态特征较易被识别;而事件与关系类记忆更容易出错,揭示模型在理解动态情节和关系变化方面仍有不足。
▲ 图9 不同问题类型下记忆系统的性能
如图 9 所示,对于 HaluMem 设计的六类问题,各记忆系统整体准确率普遍偏低,仍有较大提升空间。除了 SuperMemory 和 Zep 外,大多数系统一遇到超长语境(HaluMem‑Long)就开始“记不住”;而 SuperMemory 和 Zep 则凭借更稳的记忆机制,在两个数据集上都保持领先。
值得注意的是,各系统在 “Memory Boundary” 和 “Memory Conflict” 类问题上表现不错,说明它们具备一定识别未知或误导信息的能力;但一旦进入需要多轮推理、动态更新或知识迁移的复杂场景,准确率便迅速走低。
这揭示出当前记忆系统在复杂逻辑推理与偏好追踪方面仍存在明显短板。
在时效性分析中,论文中比较了各记忆系统在“写入对话”与“记忆检索”两个阶段的耗时表现。
表 5 结果显示,写入阶段远比检索阶段耗时得多,是系统整体计算开销的主要瓶颈。这意味着要让智能体变得更“灵活高效”,提升记忆提取与更新的速度将是关键方向。
在 HaluMem‑Medium 上,SuperMemory 综合表现最佳;而 Mem0 系列的写入时间过长,表明其在对话处理和记忆构建阶段效率不足。
在长语境下,部分记忆系统的耗时有所下降,主要源于提取记忆点的减少,而非算法优化带来的改进。
总体而言,当前记忆系统仍需在运行效率与记忆能力之间实现更优平衡,以支持未来更复杂、更实时的智能体交互场景。
总结
现有记忆系统在初步具备记忆存取与利用能力的同时,仍存在显著局限:长时稳定性不足、动态理解与推理协同欠缺,以及提取—更新—问答链路未形成高效联动:
1. 记忆提取:多而不精,动态信息难捕捉
记忆提取准确率较低,幻觉比例较高,并且在超长语境下覆盖率下降。
人物画像类记忆提取较稳定,但事件和关系类信息易出错,显示系统难以捕捉动态情节与关系变化。
上游提取不足直接限制问答性能,体现“提取是根本”。
2. 记忆更新:链路断点明显
正确更新率普遍较低,并且伴随较高的遗漏率。
高记忆完整性有助于更新准确率,但提取覆盖不足导致大量信息无法更新。
3. 问答能力:依赖提取质量
问答准确率普遍较低,超长语境下事实偏移与记忆混乱明显。
部分记忆系统通过更多记忆点弥补遗漏,但复杂推理场景仍表现不足。
4. 效率与计算开销:提取与写入成为瓶颈
写入阶段耗时远高于检索阶段,是系统整体性能瓶颈。
提升提取和更新速度,同时兼顾质量,是未来改进方向。
整体来看,系统仍处于“从能记到善记”的过渡阶段。 要实现长期、可信的智能行为,需要构建更稳健的长期记忆体系,同时提升提取与更新效率与质量,并强化推理能力与自适应机制,以支撑复杂、动态和多轮任务的智能交互。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·