动态列表

  • 比互联网泡沫惨17倍!AI裁员潮上万科学家下一站在哪里?
  • 300只狗试用延寿药,「寿命曼哈顿计划」启动!
  • 谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题
  • NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA
  • MIT经济学博士生,用AI骗过了诺奖导师、Nature、美国国会
  • 2025 IDEA大会沈向洋提出智能演进的五个维度:机会不仅来自技术本身
  • 基础架构的新探索:清华提出Step by Step Network
  • 罗永浩:当年如果不做 TNT,锤子科技有可能多撑几年;灵光上线 4 天下载突破 100 万;谷歌 AI 搜索出现赞助广告
  • AI半天顶博士6个月,奥特曼太激动!生化圈巨震
  • 别再问什么工作被AI取代!Karpathy直指本质:你的工作「可验证」吗?
  • Karpathy最新发文:醒醒!别把AI当人看,它没欲望也不怕死
  • 马斯克想要「杀死」氛围编程,就像FSD搞定自动驾驶
  • 硅谷今夜笑疯!马斯克自黑「傻胖子」,只因Grok硬捧他打赢泰森
  • 2025宝山·智能机器人产业大会暨嘉年华隆重开幕
  • 解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT
  • Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏
  • DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
  • 把具身机器人开发变简单,地瓜机器人S600与一站式平台双擎亮相
  • Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
  • 华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用
  • 腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
  • NeurIPS 2025 | MIT新研究:数据集蒸馏迎来“线性时代”,一张图顶半个ImageNet?
  • OpenAI联手菲尔兹奖得主与多位顶尖学者,首次公开GPT-5的科研真实战力
  • ICML 2025 | 联邦学习的“平衡艺术”:FedCEO破解隐私与效用的权衡困局
  • 美团宣布在全国建设「骑手公寓」;2026 款苹果 iPad Air 曝光;月之暗面被曝计划明年下半年 IPO
  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 北京内推 | 小红书审核基础算法团队招聘增量预训练/RL/推理方向算法实习生
  • ICLR 2026吃瓜大赏:论文区在卷,审稿区在演,比春晚还热闹的五大名场面
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道

AI离“可靠记忆”还有多远?HaluMem首次把记忆系统幻觉拆到操作级

原创 让你更懂AI的 2025-11-21 13:33 北京

三步拆解AI记忆系统的幻觉真相

AI 的“记忆系统”正在快速演化,但幻觉(Hallucination)问题依旧普遍存在。要让 AI 真正拥有“可靠记忆”,我们首先要弄清楚幻觉从哪里来、如何传播。

▲ 图1 HaluMem与现有记忆系统幻觉评估方法的对比

然而,如图 1 和表 1 所示,现有关于记忆系统的幻觉评估方法仍存在显著局限:主流研究大多采用端到端的问答式评测框架,难以深入系统内部,探明幻觉究竟源于哪个阶段。

此外,这些基准的对话跨度普遍较短(仅数月至数年)、部分基准上下文长度有限,无法反映真实的长期记忆演化过程。

▲ 表1 记忆系统幻觉评估基准的比较

为此,论文《HaluMem: Evaluating Hallucinations in Memory Systems of Agents》提出了业内首个操作级幻觉评测基准——HaluMem,从评测粒度、任务深度到数据规模全面突破:

  • 操作级精细评测:HaluMem 首创“三阶段幻觉拆解机制”(记忆抽取 → 记忆更新 → 记忆问答),可在系统运行的每一步追踪幻觉来源,突破传统端到端评测盲区(见图1)。

  • 超长时、多类型记忆场景:对话时间跨度达 10~20 年,涵盖人物、事件与关系三类记忆,支持动态更新,真实模拟人类长期交互。

  • 超大规模上下文:单用户对话上下文可达 100万 tokens,能全面考察记忆系统面对超长上下文的稳定性与记忆一致性。

  • 丰富任务与多维数据版本:包含记忆抽取、更新、问答三类操作任务与对应的评估指标,记忆问答涵盖六类问题,并提供 HaluMem-MediumHaluMem-Long 两种版本,兼顾常规与极限场景。

首轮实验结果表明,主流记忆系统(Mem0、Memobase、Supermemory、Zep,后续将覆盖更多记忆系统)在抽取与更新阶段最易出现幻觉,这些错误随后会沿流程传导,最终影响问答阶段的准确性。

论文地址:

https://arxiv.org/pdf/2511.03506

GitHub地址:

https://github.com/MemTensor/HaluMem

Hugging Face地址

https://huggingface.co/datasets/IAAR-Shanghai/HaluMem

记忆系统中的三类“幻觉”

▲ 图2 记忆系统中操作级幻觉的示例

如图 2 所示,在 AI 系统的记忆运作过程中,幻觉(Hallucination)并不仅限于输出阶段,而是可能在多个操作环节中出现。具体而言,主要包括以下三类:

  • 记忆提取幻觉:在从对话中抽取关键信息时出现错误或虚构事实,使得生成的记忆内容与真实语义不符。

  • 记忆更新幻觉:在对已有记忆进行修改时发生偏差,可能错误覆盖、遗漏更新,导致历史信息失真。

  • 记忆问答幻觉:在调用记忆回答问题时引用了错误或虚构的记忆,生成不一致甚至矛盾的内容。

这些幻觉往往会在系统内部逐步积累、传递并放大,最终影响模型的回答准确性与一致性。而这种“隐性幻觉链条”正是当前记忆系统可靠性受限的关键原因之一。

要深入理解这些幻觉是如何出现、积累并影响最终输出,仅靠现象分析还不够。于是,HaluMem 提供了针对性的数据集与评测框架,从源头入手重构记忆系统的评测方式。

HaluMem 多轮对话数据集构建

HaluMem 从设计之初就以“从源头建模记忆”为目标,构建了一条自底向上的数据生成链。不同于直接采样现成对话,HaluMem 以虚拟用户为核心,从长期事件流到具体对话,系统化模拟记忆的产生与演化。

如图 3 所示,HaluMem 通过六阶段数据构建流程,以虚拟用户为起点,逐步生成事件流、摘要、记忆点和多轮对话,形成覆盖整个记忆生命周期的评测样本。基于此设计生成的数据集能够满足以用户为中心、过程可追踪、操作可分解三大要求,为操作级幻觉评测提供坚实基础。

▲ 图3 HaluMem 数据集构建流程

Stage 1:用户画像构建

第一阶段将基于 PersonaHub(十亿级人格样本语料库)抽样生成了一批经 GPT‑4o 语义审校与一致性修正的结构化虚拟用户,用以模拟真实的长期人机交互对象,作为整个记忆生成链的起点。每个用户由以下三类信息组成:

  • 核心信息(Core Profile):包括姓名、性别、职业、教育背景等相对固定的基础属性;

  • 动态状态(Dynamic State):涵盖健康状况、职业发展、社交关系等随时间不断变化的状态;

  • 兴趣偏好(Preferences):涉及饮食、音乐、影视、运动等具有长期连续性但可逐步演化的偏好信息。

Stage 2:人生骨架

接下来,HaluMem 为每个虚拟用户定义一条 “人生骨架”(Life Skeleton),用于描绘其在长期跨度内的主要发展脉络。其认为个体的长期记忆通常源自两个既独立又相互交织的维度:

  • 主线:职业线(Career Line):反映个体在职业、健康与人际关系等方面的阶段性变化,如升职、生病或结婚。它决定了系统需持续追踪的关键状态转移,是长期记忆的结构主干。

  • 支线:日常线(Lifestyle Line):捕捉用户在生活习惯、兴趣与偏好上的细微演化,如饮食、音乐或运动喜好。它为记忆系统提供丰富的动态素材,用以考察模型能否精确更新与保持长期偏好。

两条线各自独立演化,又在时间轴上交错,构成既具结构性又接近真实人类记忆演变特征的叙事逻辑,为后续事件流和记忆生成奠定基础。

Stage 3:事件流

HaluMem 依据“职业线”和“日常线”为每个虚拟用户组织了一条随时间推进的事件流(Event Flow),作为长期记忆构建的核心脉络。

事件流以时间连续性和语义连贯性为设计原则,形成结构化的记忆事务日志(Memory Transaction Log),精确记录每次记忆的生成、修改与删除。其事件主要包括:

  • 初始化事件:描述用户的初始背景与自我介绍;

  • 职业发展事件:源自职业线,涵盖升职、岗位变动或健康变化等关键状态转移;

  • 日常生活事件:来自日常线,反映兴趣、习惯与偏好的细微演化,如饮食或音乐喜好更新。

Stage 4:对话摘要与记忆点

不同于直接在对话中标注记忆,HaluMem 以事件流中的每个事件为核心,生成对应的对话概要与记忆点,明确系统应提取和更新的内容。这一步构建了一个“记忆生成脚本”,用于提前定义哪些信息应被识别、追踪与更新。

  • 对话概要:针对每个事件,生成对话主题与意图,例如“用户想与 AI 讨论升职带来的压力”。

  • 记忆点:基于概要提取潜在的事实、状态或关系变化,每个记忆点包含类型、重要度和时间戳等信息,并保留历史版本以支持后续更新与一致性评测(见图4)。

▲ 图4 记忆点示例

进一步,记忆点包含三个类别:

  • Persona Memory:表示用户的身份、兴趣、习惯或信念等相对稳定特征;

  • Event Memory:记录用户经历的具体事件、体验或未来计划;

  • Relationship Memory:反映用户与他人的关系、互动及态度变化。

Stage 5:多轮对话生成

基于生成的对话摘要与记忆点,HaluMem 随后构建多轮人机对话(见图5)。这些对话围绕摘要设定的主题展开,使记忆点以自然的语境嵌入用户与 AI 的交流过程,从而形成可用于评测的真实交互语料。

同时,对话中会被加入适度的干扰信息,例如 AI 错误引用用户未确认的内容,以模拟现实中 AI 常见的“记错”或“自作聪明”的情境。这一设计用于测试记忆系统在面对信息歧义与局部幻觉时的稳健性。

▲ 图5 单轮对话示例

Stage 6:问题生成

HaluMem 在评测设计中构建了覆盖多层认知过程的六类问题体系。这些问题从记忆回忆、语义推理到冲突检测与一致性检验,系统性考察记忆系统在不同任务上可能出现的幻觉与偏差。每个问题均配有标准答案及对应的“证据链”,便于自动化比对与误差定位。

▲ 图6 评测问题示例

基于前述的数据生成流程,研究团队首先构建了基础数据集 HaluMem-Medium。该版本涵盖多种用户类型与长期事件链。

为了进一步评估模型在超长时序交互下的表现,团队在 HaluMem-Medium 的基础上构建了扩展版本 HaluMem-Long

该版本通过插入大量与核心记忆无关的对话片段(见图7),如开放问答与日常闲聊(来源于 ELI5、GPT‑Distilled‑Reasoning‑Math 等语料),显著延长了交互上下文。

虽然这些内容不改变用户记忆逻辑,却将平均对话长度从约 16 万 tokens 扩展至百万级,使模型面临更强的信息老化、语境漂移与幻觉累积挑战,从而更全面地检验长期记忆的鲁棒性与抗遗忘能力。

▲ 图7 无关对话示例

在抽取近 50% 的对话进行人工标注核验后,HaluMem 数据集最终形成 MediumLong 两种版本,覆盖多样的记忆类型与六大幻觉评测场景。其详细统计特征见表2

▲ 表2 HaluMem Datasets 的统计概述

HaluMem 评估流程:深入记忆系统内部探查幻觉的起源与成因

▲ 图8 幻觉评估流程

HaluMem 包含三个评估任务,从而实现幻觉产生的阶段化定位,使研究者能够准确识别幻觉的来源与传播路径:

  • 记忆提取(Extraction):衡量系统能否从对话中正确识别关键信息(准确性),同时避免臆造或遗漏(完整性)。

  • 记忆更新(Updating):评估系统在更新已有记忆时的正确性与一致性。

  • 记忆问答(Question Answering):考察系统在综合使用记忆进行推理与生成时的最终表现。

(1)评估流程

如图 8 所示,HaluMem 在每段对话(session)结束后立即进行评估,以模拟真实的人机交互流程:

1. 输入处理:按时间顺序将各轮对话输入记忆系统,触发其执行记忆提取、更新等操作;

2. 阶段触发:当系统完成一段对话处理后,自动启动对应的评测任务(提取、更新或问答);

3. 结果汇总:对各阶段输出分别评估并记录,再统一汇总为整体性能指标。

(2)评估指标

HaluMem 围绕三个核心任务定义了细粒度指标体系,以刻画幻觉在不同操作阶段的表现差异(见图8)。

  • 记忆提取(Memory Extraction):

  • Memory Integrity:是否遗漏了应该提取的关键信息,包括 Memory Recall 和 Weighted Memory Recall;

  • Memory Accuracy:提取的记忆是否准确无误,包括 Memory Accuracy、Target Memory Precision 和 False Memory Resistance(FMR);

  • 记忆更新(Memory Updating):

  • Update Accuracy:记忆正确更新率,是否正确修改或合并旧记忆;

  • Update Hallucination:记忆更新幻觉率,是否产生错误或虚假更新;

  • Update Omission:记忆更新遗漏率,是否遗漏必要更新。

  • 记忆问答(Memory Question Answering):

  • QA Accuracy:回答正确率,回答是否正确;

  • QA Hallucination:回答幻觉率,回答中是否包含虚构内容;

  • QA Omission:回答遗漏率,是否因缺失记忆而无法作答。

实验部分

在实验部分,基于 HaluMem 对多种主流记忆系统进行了系统评测,涵盖 Mem0(标准版与 Graph 版)、SuperMemory、MemobaseZep。结果表明,不同系统在记忆提取、更新与问答阶段的幻觉特征和传播模式存在明显差异。

未来,HaluMem 将进一步扩展评测范围,纳入包括 MemOS 在内的更多系统,为 AI 记忆机制的可靠性研究提供更全面的实证基础。

首先,论文汇总了各记忆系统在记忆提取(含记忆完整性与准确性)、记忆更新和记忆问答三项任务上的全部评估指标(见表3)。结果揭示了当前记忆系统研究的总体现状及其在可靠性与可控性方面的未来方向。

(1)记忆提取:在覆盖广度与准确性之间的拉锯面对超长上下文场景(HaluMem-Long),几乎所有系统的表现都明显退化,尤其是 Mem0 系列受影响最重。

除 Supermemory 外,其他模型在长文本中提取出的记忆数量显著减少,说明模型仍难以有效区分核心信息与冗余细节。整体回忆率普遍低于 60%,意味着大量关键记忆点被遗漏。

与此同时,较高的权重召回率又表明模型在有限提取中倾向于保留相对重要的信息。但由于准确率多低于 62%,幻觉比例偏高,记忆提取阶段依然存在“量多质弱”的问题。

(2)记忆更新:链路断裂带来的性能瓶颈各系统的正确更新率均未能突破 50%,多数甚至不到 30%,且在长文本条件下进一步恶化。

分析发现,高记忆完整性(Memory Integrity)通常对应更佳的更新精度;但因为早期的记忆提取覆盖不足,导致更新阶段频繁出现“无记可更”的情况,遗漏率普遍高于 50%。

尽管幻觉出现率不足 1%,这更多是因为真正进入更新流程的样本过少。换句话说,现有系统在“提取—更新”这条链路上存在明显断点,难以稳定地将旧记忆与新增信息正确衔接。

(3)记忆问答:上游提取质量决定下游表现上限在记忆问答环节中,表现最佳的系统往往同时具备最高的记忆完整性与更新准确率,印证了“提取决定根基”这一判断。例如,Mem0 与 Mem0‑Graph 在长文本下准确率显著下滑,与其提取记忆点急剧减少密切相关。

总体而言,各系统问答准确率普遍低于 56%,幻觉与遗漏仍较突出,且长上下文干扰使整体表现进一步恶化。这说明当前记忆系统的问答能力高度依赖上游记忆提取的充分性和准确性,在面对超长语境时依然容易陷入“事实漂移”与“记忆混乱”。

在进一步的记忆类型分析中(见表4),论文展示了各记忆系统在三类记忆上的提取准确率:事件记忆、人物画像记忆以及关系记忆。实验结果显示,不同类型记忆的提取准确率差异明显:在HaluMem-Medium 上,Zep 表现最佳。

但在长语境下 Zep 和 Mem0 系列的表现均大幅下降,反映出现有系统难以在复杂对话中稳定捕捉有效信息。只有 Supermemory 在长语境中表现提升,可能因其倾向于提取更多记忆点,从数量上弥补了部分遗漏。

从类型上看,人物画像记忆的准确率略高,说明静态特征较易被识别;而事件与关系类记忆更容易出错,揭示模型在理解动态情节和关系变化方面仍有不足。

▲ 图9 不同问题类型下记忆系统的性能

如图 9 所示,对于 HaluMem 设计的六类问题,各记忆系统整体准确率普遍偏低,仍有较大提升空间。除了 SuperMemory 和 Zep 外,大多数系统一遇到超长语境(HaluMem‑Long)就开始“记不住”;而 SuperMemory 和 Zep 则凭借更稳的记忆机制,在两个数据集上都保持领先。

值得注意的是,各系统在 “Memory Boundary” 和 “Memory Conflict” 类问题上表现不错,说明它们具备一定识别未知或误导信息的能力;但一旦进入需要多轮推理、动态更新或知识迁移的复杂场景,准确率便迅速走低。

这揭示出当前记忆系统在复杂逻辑推理与偏好追踪方面仍存在明显短板。

在时效性分析中,论文中比较了各记忆系统在“写入对话”与“记忆检索”两个阶段的耗时表现。

表 5 结果显示,写入阶段远比检索阶段耗时得多,是系统整体计算开销的主要瓶颈。这意味着要让智能体变得更“灵活高效”,提升记忆提取与更新的速度将是关键方向。

在 HaluMem‑Medium 上,SuperMemory 综合表现最佳;而 Mem0 系列的写入时间过长,表明其在对话处理和记忆构建阶段效率不足。

在长语境下,部分记忆系统的耗时有所下降,主要源于提取记忆点的减少,而非算法优化带来的改进。

总体而言,当前记忆系统仍需在运行效率与记忆能力之间实现更优平衡,以支持未来更复杂、更实时的智能体交互场景。

总结

现有记忆系统在初步具备记忆存取与利用能力的同时,仍存在显著局限:长时稳定性不足、动态理解与推理协同欠缺,以及提取—更新—问答链路未形成高效联动:

1. 记忆提取:多而不精,动态信息难捕捉

  • 记忆提取准确率较低,幻觉比例较高,并且在超长语境下覆盖率下降。

  • 人物画像类记忆提取较稳定,但事件和关系类信息易出错,显示系统难以捕捉动态情节与关系变化。

  • 上游提取不足直接限制问答性能,体现“提取是根本”。

2. 记忆更新:链路断点明显

  • 正确更新率普遍较低,并且伴随较高的遗漏率。

  • 高记忆完整性有助于更新准确率,但提取覆盖不足导致大量信息无法更新。

3. 问答能力:依赖提取质量

  • 问答准确率普遍较低,超长语境下事实偏移与记忆混乱明显。

  • 部分记忆系统通过更多记忆点弥补遗漏,但复杂推理场景仍表现不足。

4. 效率与计算开销:提取与写入成为瓶颈

  • 写入阶段耗时远高于检索阶段,是系统整体性能瓶颈。

  • 提升提取和更新速度,同时兼顾质量,是未来改进方向。

整体来看,系统仍处于“从能记到善记”的过渡阶段。 要实现长期、可信的智能行为,需要构建更稳健的长期记忆体系,同时提升提取与更新效率与质量,并强化推理能力与自适应机制,以支撑复杂、动态和多轮任务的智能交互。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们