原创 让你更懂AI的 2025-11-13 12:36 北京
智能体做“深度研究”很厉害,但它懂你吗?
大模型智能体正从“通用问答”迈向“深度研究”——不仅能自主检索、整合信息,还能生成结构清晰、证据充分的深度研究报告。
然而,现有评测体系仍聚焦于“事实是否准确”“内容是否完整”,却忽视了一个关键问题:这份报告,真的适合“你”吗?
在真实世界中,一份关于“留学选校”的报告,对一名预算有限的本科生和一位寻求职业转型的职场人,理应完全不同;一份“马拉松训练计划”,也必须考虑用户的体能基础、时间安排等日常生活习惯。
个性化,才是深度研究智能体落地的核心门槛。
为填补这一空白,OPPO 与浙江大学联合团队正式发布 Personalized Deep Research Bench(PDR-Bench)——面向个性化深度研究(Personalized Deep Research)的评测基准,并同步提出 PQR 评估框架,从个性化对齐(P)、内容质量(Q)与事实可靠性(R)三大维度,系统衡量智能体是否真正“懂你”。
论文标题:
Towards Personalized Deep Research: Benchmarks and Evaluations
论文链接:
hhttps://arxiv.org/abs/2509.25106
代码链接:
https://github.com/OPPO-PersonalAI/PersonalizedDeepResearchBench
数据集链接:
https://huggingface.co/datasets/PersonalAILab/PersonalizedDeepResearchBench
基准构建:真实用户 × 深度研究任务
Personalized Deep Research Bench 的核心在于“专业”与“真实”。
50 个深度研究任务:覆盖教育、职业、健康、金融、旅行等 10 个领域,均由领域专家设计,经多轮委员会审核修改,确保任务具备多步推理、信息整合与个性化价值。
25 位真实用户画像:招募真实志愿者,采集其结构化身份信息(年龄、职业、收入、家庭等),职业标注者基于此标注动态行为上下文(手机日志、对话记录、兴趣演变),构建高保真用户档案。
250 个个性化查询:通过“用户自选 + 专家对齐”机制,将任务与用户精准配对,确保每条查询都反映真实世界中的个性化深度研究需求。
PQR 评估框架:不止“好不好”,更要看“适不适合你”
传统评测只问:“报告写得好吗?”
PQR 框架追问三件事:
P - Personalization Alignment(个性化对齐)
报告是否精准契合用户任务目标、知识水平与偏好?是否提供可执行建议?语言风格是否匹配?
Q - Content Quality(内容质量)
是否具备深度洞察、逻辑严谨、结构清晰?是否易于阅读?
R - Factual Reliability(事实可靠性)
所有主张是否有可靠引用?引用内容是否真实支持结论?事实准确率与引用覆盖率如何?
PQR 采用 LLM 驱动的动态评分机制:针对每个“用户-任务”对,自动生成定制化评分标准与权重,实现细粒度、可解释、用户为中心的的评估。
实验发现:开源强在“懂你”,商业胜在“靠谱”
团队评测了包括 Gemini-2.5-Pro Deep Research、O3 Deep Research、Perplexity Deep Research 等商业系统,以及 OAgents、MiroFlow、DeerFlow 等开源智能体,得出关键结论:
开源智能体(如 OAgents)在个性化对齐上表现突出,尤其在目标理解与呈现适配上领先,但事实准确性与引用覆盖率明显不足;
商业系统整体更稳健,在内容质量与事实可靠性上优势显著,但个性化能力仍有提升空间;
仅加搜索插件的大模型(如 GPT-4.1 + Search)难以胜任复杂个性化深度研究任务。
此外,团队还测试对比了“仅任务”、“任务+上下文”和“任务+显式画像”三种输入条件下各系统的个性化得分;团队进一步测试了 Mem0、Memory OS 和 O-Mem 等记忆系统从上下文提取用户特征进行个性化深度研究的表现。
研究发现:
显式用户画像(explicit persona)比隐式上下文(context)更能有效提升个性化效果,说明当前智能体难以从零散上下文中自动提炼准确完整的用户画像,显式结构化信息仍是实现高阶个性化的关键输入;
当前主流记忆系统虽有一定帮助,但与理想状态(直接提供显式画像)仍有显著差距,需更高级的用户建模与推理能力。
该工作不仅为个性化深度研究设立了标准化评测基准,也为未来 AI 助手从“通用信息提供者”迈向“真正懂你的个人研究伙伴”指明了方向。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·