动态列表

  • 刚刚,谷歌发布71页AI科研报告!6大领域全面超越专家,几小时顶几个月
  • 一夜刷屏!27岁姚顺雨离职OpenAI,清华姚班天才转型做产品经理?
  • 王小川押注下个十年:为人类造医生,为生命建模型|新智元十周年峰会
  • 一刀砍掉90%训练成本!Qwen3-Next用1/10算力练成「长文推理利器」
  • AI意识「觉醒」!图灵得主Bengio重磅发声:AI正接近人类意识临界点
  • 扩散语言模型也有MoE版本了!蚂蚁&人大从头训练LLaDA-MoE,即将完全开源
  • 如何为LLM智能体编写工具?Anthropic官方教程来了
  • 腾讯优图重磅开源Youtu-GraphRAG,实现图检索增强技术新突破
  • Adam的Update RMS为何总是0.2?噪声模拟到理论近似全讲透
  • KDD 2025最佳论文亚军:参数不同还能共训?异构知识迁移框架HtFLlib全面开源
  • 北京/上海内推 | 小红书智能审核算法团队招聘NLP/多模态内容理解算法工程师/实习生
  • 我苦寻的「库乐队」,叫 MiniMax Music 1.5
  • Science Advances | AI for Earth:聆听海洋的「脉搏」,新一代AI大模型精准预测十年气候脉动
  • 外滩大会嘉宾锐评AGI即将“撞墙”,正在向数字与物理世界进化
  • 港科大 X MiniMax:高质量数据、小模型挑战复杂网络搜索难题
  • 为了网罗 AI 创新者,上海搞了场万人科创大赛
  • 蚂蚁集团数字蚂力首批专家级“AI数字员工团队”亮相外滩大会
  • “IIFAA数字卡包”上线支付宝:目前已支持多类身份申领
  • 蚂蚁集团加码AGI等青年人才培育,2025蚂蚁InTech奖在外滩大会揭晓
  • 重塑药物研发,哈佛医学院等开源全新AI模型,用「图神经网络」破解疾病驱动因素多元难题
  • 全球最懂智能体的创业者齐聚外滩大会,未来三年怎么做聊透了
  • 马上上岛|云栖大会「新世代 AI 创想岛」即将揭幕
  • ICRA 2025 | TANGO:机器人告别3D地图,仅靠RGB摄像头实现零样本长距离导航
  • 挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
  • 姚顺雨离职OpenAI,「亿元入职腾讯」传闻引爆AI圈,鹅厂辟谣了
  • 全新MoE架构!阿里开源Qwen3-Next,训练成本直降9成
  • 告别错误累计与噪声干扰,EviNote-RAG 开启 RAG 新范式
  • 西贝贾国龙称一定起诉罗永浩;支付宝推出「AI 付」服务;iPhone 17 京东、天猫预订量比上代大增|极客早知道
  • 刚刚,ChatGPT支持MCP了!一句Prompt即可全自动化
  • 百度CTO王海峰:AGI曙光已现,Scaling Law仍有效|新智元十周年峰会
  • 通用Agent是伪命题?昆仑万维方汉现场拆解:垂直推理才是胜负手|新智元十年峰会
  • 文心X1.1三大能力狂飙,海内外实测还挺惊艳!
  • 超越90%城市规划师!清华、MIT等提出人机协作新范式 | Nature子刊
  • 慕尼黑车展,当冷静遇上冷静
  • 博士申请 | 新加坡国立大学计算机系卞亚涛老师招收2026 Fall人工智能全奖博士/博后
  • 别再狂刷CoT了!港科广DIGAI Lab发布隐式推理全景综述,静默思考开启新范式
  • 继首创“AI打赏”服务之后,支付宝再推国内首个“AI付”
  • 蚂蚁百宝箱新品Tbox超级智能体亮相外滩大会,5分钟即可完成专业教学素材
  • 量子宇宙模拟竞赛开启:量子计算机可以模拟并阐明复杂物理现象
  • 3000亿美元OpenAI大单,让世界首富位置换人了
  • 攻克大模型「表格盲区」!ST-Raptor框架发布,实现复杂半结构化表格的精准理解与信息抽取
  • 港大马毅外滩大会演讲:人工智能应从“黑箱”走向“白箱”
  • 兼顾准确率与可解释性,DeepSEA实现抗生素耐药蛋白注释范式转变
  • 交互扩展时代来临:创智复旦字节重磅发布AgentGym-RL,昇腾加持,开创智能体训练新范式
  • RewardDance:字节跳动提出视觉生成奖励扩展新范式,破解“奖励劫持”难题
  • 刚刚,Thinking Machines Lab首次发长文,揭开LLM推理不确定性真相
  • 英伟达的AI已经开始接管整个项目了?SATLUTION自主进化代码库登顶SAT竞赛
  • 大模型智能体不止能写代码,还能被训练成白帽黑客
  • 高德扫街榜,能不能做成中国的「Google Map」?
  • 开启MPV家庭新时代,魏牌高山7正式启动预售
  • ACL最佳论文幕后的北大人!北大张铭带出顶会常胜军和百亿CEO天团|新智元十周年峰会
  • 刚刚,这款Agent浏览器力压OpenAI,72%成功率全球第一!还能免费用
  • =COPILOT()函数横空出世!AI自动写公式效率起飞,网友:让Excel再次伟大
  • 当智能醒于物理世界,英伟达副总裁: 下一个十年属于物理AI!|新智元十周年峰会
  • 刚刚,英伟达祭出下一代GPU!狂飙百万token巨兽,投1亿爆赚50亿
  • 00后挑大梁!近20国选手激战外滩大会,AI科创赛三赛道冠军诞生
  • CoRL 2025 | 港大InfoBodied AI团队首发具身表征新范式,构建任务自适应的感知框架
  • 英伟达下一代GPU登场,Rubin CPX一次推理数百万Token,网友:这是头野兽
  • 谷歌AI新里程碑:一个能「做研究」的系统诞生了,用LLM+树搜索编写专家级软件
  • 爱诗科技完成6000万美元B轮融资,阿里巴巴领投,达晨财智、深创投、北京市AI基金、巨人网络、Antler等跟投
  • 当人工智能「看见」量子世界:AI如何改变对复杂量子系统的认知,南洋理工、上交等发布量子系统学习综述
  • DeepSeek、Gemini都不行?AgenTracer锁定多智能体“背锅侠”,8B小模型反超闭源巨模
  • 北京内推 | AMD北京AI算法团队招聘模型量化/剪枝算法实习生(可远程)
  • SFT真不如RL?MIT团队抛出“RL的剃刀”,砍掉遗忘直通终身学习
  • 院士领衔!从智能算网到司法AI:顶尖学者直播解读AI与工程前沿趋势
  • AI应用元年,这场标杆赛事见证了中国创新速度与野心
  • AI胡说八道这事,终于有人管了?
  • 人人都能炼专属Agent,上海交大开源端侧Agent全栈工具链,真实场景性能超GPT-5!
  • TPAMI 2025 | H2OT:分层沙漏型Tokenizer,重塑高效视频姿态Transformer
  • 史上最贵「打工皇帝」!马斯克解锁1万亿美金工资,拢共分几步?
  • 500 块的「电子宠物」,治好了我的「路怒症」|New Things
  • 苹果发布会:耳机测心率、手表听音乐、iPhone Air超级薄
  • 5999 元起,苹果发布eSIM、超薄 iPhone;王腾再辟谣离职原因谣言;反恶性补贴,主要外卖平台被约谈|极客早知道
  • 不到10天,国产「香蕉」突袭!一次7图逼真还原,合成大法惊呆歪果仁
  • 再也不怕面瘫脸!YouTube黑科技:AI帮你「永久微笑」,连僵尸都咧嘴笑
  • OpenAI真正王牌,不是Ilya!刚刚,奥特曼罕见致谢这两人
  • 缔造OpenAI的秘密,竟只有一个词!新智元十年峰会圆桌,七位大咖激辩
  • Hinton预言失灵?掌握AI技能涨薪23%,比读硕士更赚钱
  • 最薄 iPhone 登场,eSIM 正式落地|苹果秋季发布会新品回顾
  • 文心新出的推理大模型,给了我们信心
  • SFT远不如RL?永不过时的剃刀原则打开「终身学习」大模型训练的大门
  • 从第一性原理出发的RAG推理新范式来了,蚂蚁DIVER登顶权威基准
  • 击败多个行业巨头,优必选自研人形机器人最强大脑 Thinker 斩获全球四项第一
  • 字节跳动发布 Seedream 4.0 图像创作模型,豆包、即梦可免费体验
  • 从科幻到产业元年 | 「脑机接口」系统综述发布:全景解析理论、技术、挑战、趋势
  • 硅谷也996实锤了?AI的火,烧掉了硅谷的周末
  • DPad: 扩散大语言模型的中庸之道,杜克大学陈怡然团队免训推理加速61倍
  • Altman亲自发博客点赞,这两大杰出人才是谁?
  • 自变量机器人完成近 10 亿元 A+ 轮融资,多元资本押注共同布局具身智能未来
  • 报名启动!西湖大学云谷青年学者论坛·人工智能分论坛诚邀全球英才
  • 不止综述!多模态大模型持续学习全链路:Benchmark、方法与Codebase一网打尽
  • ICML 2025 | 别再只拼CoT了!不完备信息下的主动推理,LLM普遍掉线
  • 科研实习 | 北京大学计算机学院潘亮铭老师课题组招收NLP/大模型方向科研实习生
  • 时空壶发布 W4:用「硬核」技术,打赢一场 AI 翻译的「标准」之战
  • Science | 西奈山伊坎医学院新AI算法为1600种变异定量「风险」,解析疾病外显率难题
  • TPAMI 2025 | IGEV++:迭代多范围几何编码,刷新立体匹配技术新高度
  • 原来你是这样的外滩大会!
  • 小米通报王腾因泄密被辞退,本人发微博回应;传 IPO 估值 500 亿,宇树回应 ;辛顿自曝被女友用 AI 分手 | 极客早知道
  • Hinton自曝:前女友提分手,用ChatGPT列出自己「七宗罪」
  • 从「会说」迈向「会做」,LLM下半场:Agentic强化学习范式综述
  • 字节Seedream 4.0将全量开放!抢先评测来了,我们摸索出AI生图20种「邪修」玩法
  • 全球图生视频榜单第一,爱诗科技PixVerse V5如何改变一亿用户的视频创作
  • 扎克伯格的豪赌初见成效?Meta新方法让LLM长上下文处理提速30倍
  • 具身VLA后训练:TeleAI提出潜空间引导的VLA跨本体泛化方法
  • 上海AI Lab重磅综述:AI实现自主科学发现时代已经到来
  • 6 个月估值暴涨 5 倍突破 100 亿美元,三个「00后」逼急 Scale AI
  • 深圳内推 | 腾讯音乐天琴实验室招聘音乐生成算法研究员(社招/校招)
  • 给RL装上“防抖器”!GRPO稳化版来了:更高熵、更低KL、更稳更新
  • 导师放养真的会毁掉一个人……
  • Focal Loss也能无监督?北大×港中文团队用“双重不确定性优化”提升鲁棒3D感知
  • 上汽通用五菱与华为深化合作,推出首款车型宝骏华境S
  • IEEE TPAMI | M²Diffuser: 让机器人学会“脑补”,在复杂3D场景中实现精准移动操作
  • 国行版苹果 AI 推迟至年底上线;视频平台广告被曝「偷时间」;美国计划限制进口中国无人机和重型载具 | 极客早知道|极客早知道
  • 16岁创业,22岁做成百亿独角兽!3位高中同学帮大厂训AI年入1亿美金
  • 《2025新智元ASI前沿趋势报告》全文
  • 一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
  • 苹果端侧AI两连发!模型体积减半、首字延迟降85倍,iPhone离线秒用
  • Claude不让我们用!国产平替能顶上吗?
  • SceneSplat: 基于3DGS的场景理解和视觉语言预训练,让3D高斯「听懂人话」的一跃
  • 慕尼黑车展 2025前瞻:中国队组团出海,BBA 走向「新」时代
  • 国内外AI大厂重押,初创梭哈,谁能凭「记忆」成为下一个「DeepSeek」?
  • 斯坦福:优化器「诸神之战」?AdamW 凭「稳定」胜出
  • 字节跳动Seed推出「机器人大脑」Robix:让机器人学会思考、规划与灵活互动
  • 浙大提出SSGaussian:注入语义与结构灵魂的3D风格迁移,让高斯溅射场景化身艺术品
  • 苹果 iPhone 17 系列规格已全被曝光;Anthropic 全面封杀中国公司接入;今夜将迎来「血月」月全食|极客早知道
  • OpenAI重组GPT-5「灵魂」团队!亚裔女负责人遭调离,罕见自曝AI幻觉祸首
  • 设计师大解放!清华发布「建筑平面图」自动生成模型 | ACL'25
  • 谁不用谁亏!Karpathy吹爆GPT-5:10分钟编码完胜Claude一小时,奥特曼秒回感谢
  • 震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
  • Anthropic被作家告了,违规下载700万本书,15亿美元和解了
  • 英伟达的局:狂撒15亿美元,从Lambda那租到了搭载自家AI芯片的GPU服务器
  • OpenAI罕见发论文:我们找到了AI幻觉的罪魁祸首
  • 00后以1.1亿美金「掀桌」,硅谷AI将书写影视新传奇 终结制片旧时代
  • 任意骨骼系统的模型都能驱动?AnimaX提出基于世界模型的3D动画生成新范式
  • ICCV 2025 | MOSEv2 全新亮相,第七届 LSVOS 挑战赛正式开启!
  • IEEE TPAMI 2025| PointGST:参数量仅0.67%,精度首破99%,三维点云处理迎来谱域新范式!
  • 华为新问界 M7,6 小时订单破 13 万;等 eSIM,iPhone17 Air 首发无国行;特斯拉拟给马斯克 1 万亿薪酬

「做笔记」的RAG来了!告别噪声与骨牌效应,EviNote-RAG稳住长链推理

让你更懂AI的 2025-09-12 20:37 北京

先做笔记再回答!

在检索增强生成(RAG)飞速发展的当下,研究者们面临的最大困境并非「生成」,而是「稳定」。

低信噪比让关键信息淹没在冗余文档里,错误累计则让推理链像骨牌一样层层坍塌。这两大顽疾,使得现有 RAG 系统在复杂任务中难以真正可靠。

近期,一项由蚂蚁集团、清华大学、浙江大学、MIT、UC Berkeley、香港大学和新加坡国立大学等机构联合完成的研究提出了全新方案——EviNote-RAG。它不仅在多个权威基准上实现了显著性能提升,更在训练稳定性与推理可靠性上带来了质的飞跃。

核心秘诀在于两个创新:

  • 支持性证据笔记(Supportive-Evidence Notes, SEN):像人类一样「先做笔记」,用结构化方式过滤噪声、标记不确定信息。

  • 证据质量奖励(Evidence Quality Reward, EQR):通过逻辑蕴含监督,确保笔记真正支撑答案,避免浅层匹配和错误累积。

这一组合带来的改变是革命性的:训练曲线不再震荡,答案推理更加稳健。消融与补充实验进一步验证了这一点——SEN 是性能提升的基石,而 EQR 则是质量提升的关键。两者相辅相成,使 EviNote-RAG 成为当前最稳定、最可信赖的 RAG 框架之一。

换句话说,EviNote-RAG 不仅解决了性能问题,更为复杂推理场景下的检索增强开辟了一条全新的发展路径。

在多个开放域问答基准上,EviNote-RAG 取得了显著突破:

  • 在 HotpotQA 上相对提升 20%(+0.093 F1 score),

  • 在 Bamboogle 上相对提升 40%(+0.151 F1 score),

  • 在 2Wiki 上相对提升 91%(+0.256 F1 score),不仅刷新了当前最优表现,还表现出更强的泛化能力与训练稳定性。

论文标题:

EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes

论文链接:

https://arxiv.org/abs/2509.00877

项目链接:

https://github.com/Da1yuqin/EviNoteRAG

图片

研究背景与动机

在如今这个信息爆炸的时代,检索增强生成(RAG)技术已经成为大型语言模型(LLM)在开放问答(QA)任务中的得力助手。通过引入外部知识,RAG 能够有效提升回答的准确性和时效性。

但一个现实问题是:LLM 的知识固定在训练时刻,容易输出过时甚至错误的信息。于是,检索增强生成(RAG)被提出:在问答时,从外部知识库中检索最新信息,辅助模型生成更准确的答案。然而,现有 RAG 系统依然存在两个核心痛点:

  • 低信噪比。在开放域检索场景中,真正与答案相关的证据信息往往稀缺且难以识别,大量无关或冗余内容充斥在检索结果中,导致模型在有限的上下文窗口里难以高效聚焦关键信息。

  • 错误累计。当推理跨越不完整或噪声证据时,错误会在多跳链路中层层放大,最终严重削弱答案的准确性和稳定性。这一问题在多跳问答场景中尤为突出。

过去的研究尝试通过改进检索质量、引入重排序或摘要压缩、以及对特定语料进行监督微调来缓解上述问题。虽然这些方法在一定程度上降低了噪声、减轻了推理负担,但它们普遍依赖标注的信息提取数据或外部启发式规则,缺乏一种端到端、稳健且可泛化的解决路径。

如何从根本上突破低信噪比与错误累计这两大瓶颈,成为推动 RAG 演进的核心动因。

因此,研究者提出了新的框架——EviNote-RAG。

EviNote-RAG 与传统方法的对比:EviNote-RAG 通过证据注释提取关键信息,并在蕴意法官的指导下,确保保留的内容直接支持答案,从而减少噪音并提高性能。

传统的「检索-回答」范式不同,EviNote-RAG 将流程重构为「检索-笔记-回答」的三阶段结构。

在这一框架中,模型首先生成 Supportive-Evidence Notes(SENs)——类似人类笔记的精简摘要,仅保留与答案相关的关键信息,并对不确定或缺失的部分进行明确标注。这一过程有效过滤了无关内容,从源头上缓解了低信噪比问题。

进一步地,EviNote-RAG 通过引入 Evidence Quality Reward(EQR)——基于逻辑蕴含的奖励信号,对 SEN 是否真正支撑最终答案进行评估和反馈。这一机制促使模型避免依赖浅层匹配或片段化证据,从而大幅减轻了错误累计的风险。

得益于 SEN 与 EQR 的协同作用,EviNote-RAG 不仅在多个开放域问答基准上实现了显著性能提升,还在训练稳定性、泛化能力与推理可靠性方面表现突出,真正为解决 RAG 的两大顽疾提供了一条端到端的可行路径。

图片

技术亮点

检索-笔记-回答新范式:不再直接依赖原始检索结果,而是通过结构化的笔记生成,主动过滤干扰信息,增强证据利用率。

类人笔记机制:SEN 模块模仿人类做笔记的习惯,用「*」标记关键信息,用「–」标记不确定信息,避免模型被误导。

逻辑蕴含驱动的奖励信号:引入轻量级自然语言推理模型作为「蕴含判别器」,确保笔记能够逻辑上支撑最终答案,从而在训练中提供更密集、更高质量的奖励信号。

EviNote-RAG 概述:为了提高信息利用率,该方法引入了一个记录阶段,在这个阶段,模型生成支持性证据笔记(SENs),这些笔记只捕获回答所需的信息。基于蕴涵的证据质量奖励(EQR)进一步确保每个注释忠实地支持最终答案,引导模型走向更准确和基于证据的推理。

图片

实验表现

在 7 个主流 QA 基准数据集上测试了 EviNote-RAG,涵盖了 in-domain(同分布任务)和 out-of-domain(跨域任务)两大类。评价指标包括 F1 和 EM(Exact Match)。

结果非常亮眼:在 HotpotQA(多跳推理任务)上相比基础模型,F1 提升 +0.093(20%);在 Bamboogle(跨域复杂 QA)上 F1 提升 +0.151(40%);在 2Wiki(多跳跨域 QA)上 F1 提升 +0.256(91%)。

图片

Training Dynamics: 从不稳定到稳健,RAG训练的新范式

在传统 RAG 框架中,训练往往充满不确定性:奖励稀疏,KL 发散,甚至在训练中后期出现「坍塌」现象,模型陷入无效循环或生成退化答案。

EviNote-RAG 的引入,彻底改变了这一局面。通过在训练过程中加入 Supportive-Evidence Notes(SEN)与 Evidence Quality Reward(EQR),模型不仅学会了过滤无关信息,更获得了密集、稳定的奖励信号。

这一结构化的「检索-笔记-回答」范式,使得训练曲线从动荡转向平滑,逐步提升性能的同时,极大增强了鲁棒性。

我们的分析揭示了三个关键发现:

Finding 1. 稳定性来自结构化指令,而非奖励本身。仅靠奖励设计无法避免模型漂移,唯有通过「先做笔记、再回答」的流程,把推理显式约束在证据之上,才能保证训练稳定增长。

Finding 2. 检索噪声过滤显著提升计算效率。SEN 在训练早期即丢弃无关证据,使输出更简洁聚焦,减少冗余推理,从而显著降低推理时延。

Finding 3. 行为监督不仅提升稳定性,更改善输出质量。EQR 的引入有效防止了「过短回答」与「循环生成」等退化模式,使模型在保持高效的同时,输出更忠实、更有逻辑支撑。

结果表明,EviNote-RAG 不只是性能提升,更是一种训练范式的革新:在噪声横行的检索环境中,训练终于能像一条清晰的轨道般稳定前行。

图片

案例分析

一个直观的案例是回答「谁创作了《Knockin’ on Heaven’s Door》?」。

在传统 RAG 系统中,模型容易被检索文档中的噪声或误导性信息干扰。例如,某些文档强调 Guns N’ Roses 的翻唱版本,甚至用语暗示其「作者身份」。结果,模型很容易被这种表述带偏,最终输出错误答案「Guns N’ Roses」。

而在同样的场景下,EviNote-RAG 展现出了截然不同的表现。通过生成 Supportive-Evidence Notes(SEN),模型能够主动筛除无关或误导性的片段,仅保留和问题直接相关的核心证据。

多份文档反复提及「Bob Dylan 为 1973 年电影《Pat Garrett and Billy the Kid》创作了这首歌」,这些被标注为关键信息,最终帮助模型稳定输出正确答案「Bob Dylan」。

这一案例生动展示了 EviNote-RAG 在低信噪比环境下的优势:即便存在大量混淆性信息,模型依然能够通过「先做笔记、再给答案」的流程,构建出基于真实证据的推理链,从而避免被误导。换句话说,EviNote-RAG 不仅是在「回答问题」,更是在「学会像人类一样做判断」。

图片

消融实验与补充实验:拆解模块贡献,验证方法稳健性

为了进一步理解 EviNote-RAG 的机制贡献,我们系统地进行了消融实验与补充实验。结果表明,我们的方法并非黑箱优化的「偶然胜利」,而是每一个设计环节都发挥了关键作用。

消融实验:SEN 与 EQR 缔造稳健推理在逐步剥离组件的实验中,基线模型(SEARCH-R1)在跨域和多跳任务中表现不稳定。

引入 Supportive-Evidence Notes(SEN)后,模型性能显著提升:无关检索内容被过滤,答案相关性更强。在此基础上进一步加入 Evidence Quality Reward(EQR),模型在复杂推理链路中表现更加稳定,F1 和 EM 得到进一步提升。

这一组合清晰地验证了我们的方法论逻辑:SEN 提供结构化约束,EQR 提供逻辑一致性监督,二者相辅相成,最终显著增强推理准确性。

补充实验:不同总结策略与奖励设计的比较我们进一步探索了不同的总结与监督方式:Naive Summary (NS)、Naive Evidence (NE)、Force Summary (FS) 等。结果显示,强行要求输出总结(FS)非但没有带来增益,反而由于奖励稀疏导致性能下降。

相比之下,SEN 在明确标注关键信息与不确定信息的同时,提供了更细粒度的监督信号,显著优于 NS/NE。实验还表明,单纯的奖励扰动(Stochastic Reward)难以带来稳定提升,而结合 EQR 的 SEN+EQR 则在稳定性与准确性上均达到最佳。

这一系列对照实验凸显出一个核心结论:有效的监督不在于「要求总结」,而在于「如何组织与标记支持性证据」。

核心发现:

  • SEN 是性能提升的基础:通过强制模型「做笔记」,显著降低噪声干扰。

  • EQR 是质量提升的关键:通过逻辑蕴含约束,防止浅层匹配,强化因果一致性。

  • 结构化监督胜于简单约束:相比强制总结或随机奖励,SEN+EQR 提供了稳定、密集且高质量的学习信号。

综上,消融与补充实验不仅验证了 EviNote-RAG 的有效性,更揭示了在 noisy RAG 环境中,结构化证据组织与逻辑监督是突破性能瓶颈的关键。

关于作者:

本文第一作者戴语琴,清华大学博士生。该工作为戴语琴在蚂蚁大安全实习期间完成,该工作属于蚂蚁集团大安全 Venus 系列工作,致力于打造搜索智能体 / UI 智能体。

本文通讯作者为该校副教授吕帅,研究方向包括大语言模型、多模态生成、AI4Design。共同通讯作者沈永亮,浙江大学百人计划研究员,博士生导师,研究方向包括大模型推理、RAG 检索增强生成、多模态生成模型等。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们