动态列表

  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道
  • 谷歌二代Nano Banana爆出!一键推演微积分,终结PS时代
  • 狗也被AI抢饭碗?好莱坞动物演员全下岗,观众直接翻脸了!
  • ChatGPT求婚火了,一句「我愿意」刷屏!网友:是真爱了
  • 小成本DeepSeek和Kimi,正攻破奥特曼的「算力护城河」
  • NeurIPS25 | 清华&北大提出LinearDiff-ViT:让Transformer学会“找不同”,实打实提升模型性能
  • AI 六巨头罕见同台,辨论 AI 泡沫;SpaceX 公布简化版登月舱方案;王者荣耀年度总决赛首次在鸟巢举办
  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • 仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 复盘大疆 Pocket 的七年:从「定义产品」到「定义时代」
  • TRO'25开源|机器人建图的终局?一个框架搞定光学、几何与语义!
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元

深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准

原创 让你更懂AI的 2025-11-13 12:36 北京

智能体做“深度研究”很厉害,但它懂你吗?

大模型智能体正从“通用问答”迈向“深度研究”——不仅能自主检索、整合信息,还能生成结构清晰、证据充分的深度研究报告。

然而,现有评测体系仍聚焦于“事实是否准确”“内容是否完整”,却忽视了一个关键问题:这份报告,真的适合“你”吗?

在真实世界中,一份关于“留学选校”的报告,对一名预算有限的本科生和一位寻求职业转型的职场人,理应完全不同;一份“马拉松训练计划”,也必须考虑用户的体能基础、时间安排等日常生活习惯。

个性化,才是深度研究智能体落地的核心门槛。

为填补这一空白,OPPO 与浙江大学联合团队正式发布 Personalized Deep Research Bench(PDR-Bench)——面向个性化深度研究(Personalized Deep Research)的评测基准,并同步提出 PQR 评估框架,从个性化对齐(P)、内容质量(Q)与事实可靠性(R)三大维度,系统衡量智能体是否真正“懂你”。

论文标题:

Towards Personalized Deep Research: Benchmarks and Evaluations

论文链接:

hhttps://arxiv.org/abs/2509.25106

代码链接:

https://github.com/OPPO-PersonalAI/PersonalizedDeepResearchBench

数据集链接:

https://huggingface.co/datasets/PersonalAILab/PersonalizedDeepResearchBench

基准构建:真实用户 × 深度研究任务

Personalized Deep Research Bench 的核心在于“专业”与“真实”。

  • 50 个深度研究任务:覆盖教育、职业、健康、金融、旅行等 10 个领域,均由领域专家设计,经多轮委员会审核修改,确保任务具备多步推理、信息整合与个性化价值。

  • 25 位真实用户画像:招募真实志愿者,采集其结构化身份信息(年龄、职业、收入、家庭等),职业标注者基于此标注动态行为上下文(手机日志、对话记录、兴趣演变),构建高保真用户档案。

  • 250 个个性化查询:通过“用户自选 + 专家对齐”机制,将任务与用户精准配对,确保每条查询都反映真实世界中的个性化深度研究需求。

PQR 评估框架:不止“好不好”,更要看“适不适合你”

传统评测只问:“报告写得好吗?”

PQR 框架追问三件事:

  • P - Personalization Alignment(个性化对齐)

    报告是否精准契合用户任务目标、知识水平与偏好?是否提供可执行建议?语言风格是否匹配?

  • Q - Content Quality(内容质量)

    是否具备深度洞察、逻辑严谨、结构清晰?是否易于阅读?

  • R - Factual Reliability(事实可靠性)

    所有主张是否有可靠引用?引用内容是否真实支持结论?事实准确率与引用覆盖率如何?

PQR 采用 LLM 驱动的动态评分机制:针对每个“用户-任务”对,自动生成定制化评分标准与权重,实现细粒度、可解释、用户为中心的的评估。

实验发现:开源强在“懂你”,商业胜在“靠谱”

团队评测了包括 Gemini-2.5-Pro Deep Research、O3 Deep Research、Perplexity Deep Research 等商业系统,以及 OAgents、MiroFlow、DeerFlow 等开源智能体,得出关键结论:

  • 开源智能体(如 OAgents)在个性化对齐上表现突出,尤其在目标理解与呈现适配上领先,但事实准确性与引用覆盖率明显不足;

  • 商业系统整体更稳健,在内容质量与事实可靠性上优势显著,但个性化能力仍有提升空间;

  • 仅加搜索插件的大模型(如 GPT-4.1 + Search)难以胜任复杂个性化深度研究任务。

此外,团队还测试对比了“仅任务”、“任务+上下文”和“任务+显式画像”三种输入条件下各系统的个性化得分;团队进一步测试了 Mem0、Memory OS 和 O-Mem 等记忆系统从上下文提取用户特征进行个性化深度研究的表现。

研究发现:

  • 显式用户画像(explicit persona)比隐式上下文(context)更能有效提升个性化效果,说明当前智能体难以从零散上下文中自动提炼准确完整的用户画像,显式结构化信息仍是实现高阶个性化的关键输入;

  • 当前主流记忆系统虽有一定帮助,但与理想状态(直接提供显式画像)仍有显著差距,需更高级的用户建模与推理能力。

该工作不仅为个性化深度研究设立了标准化评测基准,也为未来 AI 助手从“通用信息提供者”迈向“真正懂你的个人研究伙伴”指明了方向。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们