ToolsAi

原创让你更懂AI的 2025-11-14 11:47 北京

RAG 也需要“工作记忆”

当我们希望 LLM 总结一份上万字的会议记录、论文或新闻合集时，即便是拥有超长上下文窗口的模型也常常记不住重点：重要信息淹没在冗长文本中，导致生成结果模糊、片段化。

为了解决这一问题，Retrieval-Augmented Generation（RAG）成为了当下的主流解决方案之一：先检索关键信息，再进行总结生成。模型不再读完整文档，而是检索若干相关段落喂入 LLM 完成总结。

但 RAG 有个被忽视的漏洞：在持续对话或多轮检索-生成过程中，LLM 的历史输出被简单丢弃而未得到充分利用。

这些历史回复本身就蕴含了模型在理解、推理和总结长文档时的隐性思维轨迹，可视作一种高质量的中间记忆，然而现有 RAG 方法并未加以利用，导致信息浪费和冗余计算。

更关键的是，历史回复往往与原始文档片段存在复杂的语义依赖与逻辑传递关系，而传统 Retriever 仅基于静态语义相似度，无法捕捉这种跨查询、跨响应的动态联系。同时，长文档全局总结任务缺乏显式的精确标签，使得系统难以获得可靠的监督信号去学习‘哪些信息才真正重要’。

近日，来自伊利诺伊大学香槟分校（UIUC）的研究团队在 ACL 2025 上发布了新作：《Graph of Records: Boosting Retrieval-Augmented Generation for Long-context Summarization withGraphs 》，本文提出利用图结构来管理 RAG 过程中产生的 LLMMemory，以增强长上下文理解效果。

核心设计：让 RAG “记住自己的回答”

本文 Graph of Records（GoR）创新性地提出：“每一次 RAG 的回答，都是一条有价值的记录。与其丢弃，不如将它们作为 LLM Historical Memory 保存起来，并用图结构进行 Memory Management，形成一个可学习的 RAG 记忆图谱。”

Step 1：构建「记录图」

在 RAG 中，给定一个 User Query，我们可以检索到与之相关的文本块并输入 LLM 进行回复生成。在这个直观的过程中却包含了天然的图结构关联性：检索的文本块与 LLM 生成的回复。

因此，为了模拟真实生产环境中的 RAG 系统，针对某一个长文档，GoR 先通过 LLM 进行多轮用户查询模拟（query simulation）生成若干 User Query，并系统性地利用 RAG 生成问答记录。

每一次“查询–检索–生成”的组合可被视为一条边：连接原始文档片段（chunk）与 LLM 的回答（response）。所有这些历史 RAG 回答过程共同组成一个“记录图”（Graph of Records），蕴含了跨查询的逻辑与语义联系。

Step 2：利用 GNN 学习文本块与 LLM 历史记忆之间的复杂关联

由于 User Query 各不相同，在 GoR 的构建过程中，不同 Query 间的语义依赖与逻辑关联交织形成复杂的图结构，如何高效建模并学习这些潜在关系，是实现有效 RAG Memory 管理的关键。

对此，GoR 直观地引入图神经网络（GNN）来建模这些复杂关联：每个节点（文档块或历史回答）都会关联并学习一个动态嵌入句向量，用于反映它与全局总结查询问题之间的语义和逻辑相关性。

GoR 摒弃了昂贵的人工标注，通过 BERTScore 计算节点（Chunk or Response）与参考摘要（Reference Summary）之间的语义相似度并据此对节点进行相似度排序，构建自监督信号。

通过结合对比学习（Contrastive Loss）+ 排序损失（Pair-wise Ranking Loss）进行自监督训练（为简洁起见未列出具体算法公式，具体细节请参考原文），模型可高效地学习哪些节点对全局总结最关键，无需人工标签即可端到端优化。

实验结果：全面超越 Retriever 与长上下文 LLM

研究团队在四个长上下文数据集（AcademicEval、QMSum、WCEP、BookSum）上进行了系统评测。

结果显示，GoR 在所有指标上均显著优于包括 BM25、Contriever、Dragon、Thought-Retriever 在内的若干主流 Baseline。相比长上下文 LLM，GoR 的输入长度更短，却获得了更好的摘要质量与更低的成本，显示出强大的信息压缩与结构建模能力。

此外，基于 DeepSeek-R1 的 LLM Judge 分析显示，GoR 在摘要的完整性、多样性与信息量三项指标上均获得最高综合得分。

消融分析：图结构与自监督是关键

作者通过大量消融分析实验发现：（1）删除图神经网络训练（w/o train）导致性能显著下降；（2）删除对比损失或排序损失（w/o L_CL，w/o L_RANK）造成 Rouge-L 指标显著降低；（3）将自监督训练替换为传统的监督学习训练（w/ sup）使性能大幅退化。

这说明了 GoR 的自监督图学习机制是性能提升的关键所在。通过将 RAG 产生的 Memory 组织成图结构并利用 GNN 学习其关联性，GoR 能够进行有效的 RAG Memory 管理，提升长文本理解与总结效果。

同时，推理效率分析显示，GoR 的延迟仅比普通 RAG 多出几百毫秒，几乎不影响实时性。

总结：从 RAG 到 GoR，迈向「会思考的记忆系统」

本文提出的 GoR 让模型学会整理和利用自己的思考记录。它让 RAG 从“检索+生成”升级为“检索+生成+复用”的闭环过程，成为记忆驱动的持续思考范式。

在 LLM Memory 逐渐成为模型能力新基建的当下，如何让 LLM 真正‘记住’并重用自己的思考记录，是通往持续学习与记忆增强智能体的核心路径。

GoR 从 RAG 场景切入，首次将 LLM 历史回复系统化地纳入图结构管理，可被视为一种结构化的 LLM Memory 实现形式。

这正与当下的 LLM Memory 出发点不谋而合。而 Graph of Records 正是通往这一方向的重要一步：“让 LLM 学会记忆自己的历史，从而更好地理解世界。”

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

ACL 2025 | 用图结构让RAG学会「记忆与总结」，重塑长上下文理解

类别

资源

联系我们