原创 让你更懂AI的 2025-11-14 11:47 北京
RAG 也需要“工作记忆”
当我们希望 LLM 总结一份上万字的会议记录、论文或新闻合集时,即便是拥有超长上下文窗口的模型也常常记不住重点:重要信息淹没在冗长文本中,导致生成结果模糊、片段化。
为了解决这一问题,Retrieval-Augmented Generation(RAG)成为了当下的主流解决方案之一:先检索关键信息,再进行总结生成。模型不再读完整文档,而是检索若干相关段落喂入 LLM 完成总结。
但 RAG 有个被忽视的漏洞:在持续对话或多轮检索-生成过程中,LLM 的历史输出被简单丢弃而未得到充分利用。
这些历史回复本身就蕴含了模型在理解、推理和总结长文档时的隐性思维轨迹,可视作一种高质量的中间记忆,然而现有 RAG 方法并未加以利用,导致信息浪费和冗余计算。
更关键的是,历史回复往往与原始文档片段存在复杂的语义依赖与逻辑传递关系,而传统 Retriever 仅基于静态语义相似度,无法捕捉这种跨查询、跨响应的动态联系。同时,长文档全局总结任务缺乏显式的精确标签,使得系统难以获得可靠的监督信号去学习‘哪些信息才真正重要’。
近日,来自伊利诺伊大学香槟分校(UIUC)的研究团队在 ACL 2025 上发布了新作:《Graph of Records: Boosting Retrieval-Augmented Generation for Long-context Summarization withGraphs 》,本文提出利用图结构来管理 RAG 过程中产生的 LLMMemory,以增强长上 下文理解效果。
核心设计:让 RAG “记住自己的回答”
本文 Graph of Records(GoR)创新性地提出:“每一次 RAG 的回答,都是一条有价值的记录。与其丢弃,不如将它们作为 LLM Historical Memory 保存起来,并用图结构进行 Memory Management,形成一个可学习的 RAG 记忆图谱。”
Step 1:构建「记录图」
在 RAG 中,给定一个 User Query,我们可以检索到与之相关的文本块并输入 LLM 进行回复生成。在这个直观的过程中却包含了天然的图结构关联性:检索的文本块与 LLM 生成的回复。
因此,为了模拟真实生产环境中的 RAG 系统,针对某一个长文档,GoR 先通过 LLM 进行多轮用户查询模拟(query simulation)生成若干 User Query,并系统性地利用 RAG 生成问答记录。
每一次“查询–检索–生成”的组合可被视为一条边:连接原始文档片段(chunk)与 LLM 的回答(response)。所有这些历史 RAG 回答过程共同组成一个“记录图”(Graph of Records),蕴含了跨查询的逻辑与语义联系。
Step 2:利用 GNN 学习文本块与 LLM 历史记忆之间的复杂关联
由于 User Query 各不相同,在 GoR 的构建过程中,不同 Query 间的语义依赖与逻辑关联交织形成复杂的图结构,如何高效建模并学习这些潜在关系,是实现有效 RAG Memory 管理的关键。
对此,GoR 直观地引入图神经网络(GNN)来建模这些复杂关联:每个节点(文档块或历史回答)都会关联并学习一个动态嵌入句向量,用于反映它与全局总结查询问题之间的语义和逻辑相关性。
GoR 摒弃了昂贵的人工标注,通过 BERTScore 计算节点(Chunk or Response)与参考摘要(Reference Summary)之间的语义相似度并据此对节点进行相似度排序,构建自监督信号。
通过结合对比学习(Contrastive Loss)+ 排序损失(Pair-wise Ranking Loss)进行自监督训练(为简洁起见未列出具体算法公式,具体细节请参考原文),模型可高效地学习哪些节点对全局总结最关键,无需人工标签即可端到端优化。
实验结果:全面超越 Retriever 与长上下文 LLM
研究团队在四个长上下文数据集(AcademicEval、QMSum、WCEP、BookSum)上进行了系统评测。
结果显示,GoR 在所有指标上均显著优于包括 BM25、Contriever、Dragon、Thought-Retriever 在内的若干主流 Baseline。相比长上下文 LLM,GoR 的输入长度更短,却获得了更好的摘要质量与更低的成本,显示出强大的信息压缩与结构建模能力。
此外,基于 DeepSeek-R1 的 LLM Judge 分析显示,GoR 在摘要的完整性、多样性与信息量三项指标上均获得最高综合得分。
消融分析:图结构与自监督是关键
作者通过大量消融分析实验发现:(1)删除图神经网络训练(w/o train)导致性能显著下降;(2)删除对比损失或排序损失(w/o L_CL,w/o L_RANK)造成 Rouge-L 指标显著降低;(3)将自监督训练替换为传统的监督学习训练(w/ sup)使性能大幅退化。
这说明了 GoR 的自监督图学习机制是性能提升的关键所在。通过将 RAG 产生的 Memory 组织成图结构并利用 GNN 学习其关联性,GoR 能够进行有效的 RAG Memory 管理,提升长文本理解与总结效果。
同时,推理效率分析显示,GoR 的延迟仅比普通 RAG 多出几百毫秒,几乎不影响实时性。
总结:从 RAG 到 GoR,迈向「会思考的记忆系统」
本文提出的 GoR 让模型学会整理和利用自己的思考记录。它让 RAG 从“检索+生成”升级为“检索+生成+复用”的闭环过程,成为记忆驱动的持续思考范式。
在 LLM Memory 逐渐成为模型能力新基建的当下,如何让 LLM 真正‘记住’并重用自己的思考记录,是通往持续学习与记忆增强智能体的核心路径。
GoR 从 RAG 场景切入,首次将 LLM 历史回复系统化地纳入图结构管理,可被视为一种结构化的 LLM Memory 实现形式。
这正与当下的 LLM Memory 出发点不谋而合。而 Graph of Records 正是通往这一方向的重要一步:“让 LLM 学会记忆自己的历史,从而更好地理解世界。”
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·