动态列表

全球95%企业AI惨败？MIT报告引硅谷恐慌！90%员工偷用ChatGPT续命
全球第一！西湖大学成功登顶Science，卷赢同行背后黑科技揭秘
马斯克Grok-4卖货创收碾压GPT-5！AI卖货排行榜曝光，AGI的尽头是卖薯片？
刚刚，大模型棋王诞生！40轮血战，OpenAI o3豪夺第一，人类大师地位不保？
可灵AI单季营收超2.5亿，快手财报里的「AI含金量」有多高？
NASA、IBM打造日地物理学首个开放式 AI 基础模型，用九年观测训练提升约16%耀斑预测准确率
1 个月，2 场胜仗，李斌从「斌子」变成「斌神」
球首款AI原生游戏引擎再进化：GTA6再不来，我们就AI一个
KDD 2025 Best Paper Runner-Up | EI-BERT：超紧凑语言模型压缩框架
即梦推出“智能多帧”功能突破AI视频长镜头创作瓶颈
从实验室到餐桌：Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
那些让你「活人微死」的工作日，终于有救了
Cursor为Blackwell从零构建MXFP8内核，MoE层提速3.5倍，端到端训练提速1.5倍
谷歌Gemini一次提示能耗≈看9秒电视，专家：别太信，有误导性
从繁杂技巧到极简方案：ROLL团队带来RL4LLM新实践
究竟会花落谁家？DeepSeek最新大模型瞄准了下一代国产AI芯片
ICCV 2025 | 打造通用工具智能体的基石：北大提出ToolVQA数据集，引领多模态多步推理VQA新范式
对话小米 AI 眼镜负责人：20 天卖光库存，但属于产品的「长跑」才刚开始
DeepSeek V3.1 发布：更强的 Agent ，更贵的 API；多家网约车平台集体降抽成；影石发布 4K 画质「口袋相机」｜极客早知道
谷歌手机十年最狠升级，全家桶AI宣战苹果！一句话P图，100倍变焦
GPT-5点赞！八大顶尖机构发布「自进化智能体」全面综述
打工半年后，Atlas觉醒！「大行为模型」零代码上新技能，AI工业革命来了？
DeepSeek-V3.1震撼发布，全球开源编程登顶！R1/V3首度合体，训练量暴增10倍
刚刚，好莱坞特效师展示AI生成的中文科幻大片，成本只有330元
摆脱遥控器，波士顿动力人形机器人，开始「长脑子」干活了
微软AI CEO警告：我们需要警惕「看似有意识的AI」
ICCV 2025 | ECD：高质量合成图表数据集，提升开源MLLM图表理解能力
汽车业务还没盈利，小米却已找到「第三曲线」
通义APP上线官方知识库，首批覆盖教育、法律、金融等五大领域
AI Scientist生成的论文被指「剽窃」，回应称「未引用相关研究」，AI自动化科研还靠谱吗？
千寻位置护航无人机表演，开启品牌多城联动新篇章
刚刚，字节开源Seed-OSS-36B模型，512k上下文
上下文记忆力媲美Genie3，且问世更早：港大和可灵提出场景一致的交互式视频世界模型
OpenAI 单月营收已经破 10 亿美元；马斯克的 Grok，超 37 万条用户聊天记录「裸奔」；谷歌发布 AI 手机
成为「流量黑马」的老品牌，如何借拼多多秒懂 00 后？
AI 的终点不是对话框，这家公司想让真实世界成为 AI 的提示词
网易有道发布子曰教育大模型多款AI新品，定义教育AI应用能力L1-L5分级
二十余名英国青年科学家在沪参与好望角科学沙龙活动
TPAMI 2025 | 骨架动作理解大一统：东南大学等提出USDRL，一个面向密集表征学习的基础模型
为长视频生成减负！浙大与华为提出Compact Attention，挖掘结构化稀疏加速2.5倍
报名开启｜中关村国际青年论坛：诚邀全球青年学者共探AI前沿
Sora没做到的，LongVie框架给解决了，超长视频生成SOTA
「价格战」打了半年，吉利如何做到核心利润暴增102%？
小鹏Q2财报「炸裂」：营收暴涨125%，毛利率反超特斯拉
Nature子刊 | 上智院统一框架RXNGraphormer，实现化学反应多任务精准预测，自发掌握分类规律
首个面向肽分子设计的大模型平台：直接「读序列」出结合子，无需结构输入即可生成
智谱推出AutoGLM 2.0：手机 Agent 的「Manus 时刻」？
论坛报名已启动，速来锁定席位！解码具身智能的落地挑战与产业爆点
DiT在数学和形式上是错的？谢赛宁回应：不要在脑子里做科学
dLLM的「Free Lunch」！浙大&蚂蚁利用中间结果显著提升扩散语言模型
DeepSeek开源新基础模型，但不是V4，而是V3.1-Base
Meta超级智能实验室重组为四个部门，某些高管将离开
ICCV 2025 | 跨越视觉与语言边界，打开人机交互感知的新篇章：北大团队提出INP-CC模型重塑开放词汇HOI检测
黑神话系列第二作，《黑神话：钟馗》先导宣传片公布；小米卢伟冰：2027 年进军欧洲汽车市场；宇树预告新机器人
GPT-5暴写「屎山代码」！14个Prompt，看穿GPT-1到GPT-5七年智商进化史
微软最新揭秘：「话痨实习生」AI助手，到底能帮人类做什么？
陶哲轩「断粮」后，25年首次绝望怒吼：美国科学命脉被砍断！
16岁天才少年炒掉马斯克，空降华尔街巨头！9岁上大学，14岁进SpaceX
中科慧远发布CASIVIBOT，以九年积累开启AOI与机器人协同的品质检测新时代
英伟达ViPE：任意视频一键转为3D几何数据，开源引擎与亿级帧数据集重磅发布！
CVPR 2025 | DeCLIP：解耦CLIP注意力，哈工大（深圳）、港大提出通用开放词汇密集感知新框架
强化学习之父Richard Sutton最新演讲揭示OaK架构：通向超级智能的八步愿景
ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
医疗AI安全革命：全球首个医疗动态红队测试框架DAS，破解临床落地信任危机
谷歌在上海办了场 AI 嘉年华，开发者们却说像逛「AI 基地」
7年了，OpenAI官方给出五代GPT对比，网友却怀念起「狂野」初代
X-SAM：从「分割一切」到「任意分割」：统一图像分割多模态大模型，在20+个图像分割数据集上均达SoTA
开源版Genie 3世界模型来了：实时+长时间交互，单卡可跑，国内公司出品
图生视频新玩法刷爆外网：图上画两笔就能动起来，终于告别文本提示
妙笔生维：线稿驱动的三维场景视频自由编辑
一句话，性能暴涨49%！马里兰MIT等力作：Prompt才是大模型终极武器
Z世代生存、学习与未来宣言！伯克利学霸预言课堂，用AI设计人生
AI来了！记者、UP主、写手，谁能逃过这场「灭绝浪潮」？
Hinton预言成真！AI接管美国一半白领，牛津哈佛扎堆转行做技工
为什么「游戏」是 AI 陪伴落地的好场景？
新加坡 AI 办公系统 Agnes：200 个 Agent 并行研究，让 AI 主动「找茬」打磨设计
机器人也会「摸鱼」了？宇树G1赛后葛优瘫刷美女视频，网友：比人还懂享受生活
从GPT-2到gpt-oss，深度详解OpenAI开放模型的进化之路
NextStep-1：一次在图像生成上自回归范式的探索
KDD 2025 | UoMo来了，首个无线网络流量预测模型，一个框架搞定三类任务
突破长视频生成瓶颈：南大 × TeleAI 联合推出全新 AI 生成范式 MMPL，让创意“一镜到底”
ICCV 2025 | MobileViCLIP：快55倍！南大等提出首个高效“视频-文本模型，让多模态AI在手机可运行！
开源扩散大模型首次跑赢自回归！上交大联手UCSD推出D2F，吞吐量达LLaMA3的2.5倍
一张图，开启四维时空：4DNeX让动态世界「活」起来
AI发现新物理定律：纠正等离子体理论多年错误假设
多模态大模型在化学与材料学的「体检表」——哪些能力靠谱，哪些还差很远？
Altman：希望 AGI 能提高生育率；与辉同行否认董宇辉年收入二三十亿元；今年国内智能眼镜市场同比增长121.1%
刚刚！谷歌内部揭秘Genie 3：Sora后最强AI爆款，开启世界模型新时代
硬核拆解！从GPT-2到gpt-oss，揭秘大模型进化关键密码
黄仁勋子女逆袭上位！4万亿「皇储」成长史首曝：一个学烘培，一个开酒吧
GPT-5首次会推理，OpenAI联创曝AGI秘诀！超临界学习吞噬算力，2045金钱无用？
400万人围观的分层推理模型，「分层架构」竟不起作用？性能提升另有隐情？
CoRL 2025｜隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
SEAgent：开启从实战经验中自我进化的GUI智能体新纪元
给DiT装上“迷你”控制舵：NanoControl实现高效精准控制，参数量仅增0.024%
OpenAI估值达5000亿美元；「原道」联手小岛秀夫，推《死亡搁浅》耳机；苹果手表将「大幅重新设计」
奥特曼神秘晚宴讲话曝出！OpenAI的CEO或将是个AI，Chrome我也想买
谷歌最新「0.27B」Gemma 3开源！身板小却猛如虎，开发者直呼救命稻草
最惨就业季！CS学霸GPA 3.98，投2500份简历仅10次面试，AI吞噬入门级岗位
Yann LeCun最新纪录片首曝！传奇AI教父的双面人生，深度学习幕后40年
机器人全产业链接会 FAIR plus 2026新闻发布会在京召开
大模型如何推理？斯坦福CS25重要一课，DeepMind首席科学家主讲
当AI比我们更聪明：李飞飞和Hinton给出截然相反的生存指南
简单即强大：全新生成模型「离散分布网络DDN」是如何做到原理简单，性质独特？
ICCV 2025 | 告别“尬舞”，InterSyn交错式学习生成逼真多人交互动作
Sam Altman：AI存在泡沫；宇树机器人夺金，王兴兴：用遥控追求极致速度；蔡浩宇AI游戏上架，27.19元｜极客早知道

击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

2025-08-21机器之心来源

本文的第一作者是刘文涵，就读于中国人民大学高瓴人工智能学院，博士三年级，导师为窦志成教授，目前在百度大搜部门进行实习。他的研究方向聚焦于 AI 搜索，在顶级国际会议如 ACL、WWW 等发表了多篇论文。

推理大模型（Large Reasoning Model）极大的促进了自然语言处理领域的发展，而信息检索领域的核心问题之一是文档排序，如何利用强大的推理大模型通过主动推理来判断文档的相关性，进而再对文档进行排序是一个值得探索的方向。

在本次工作中，我们提出了 ReasonRank，ReasonRank 在包括 BRIGHT、R2MED 在内的多个榜单，击败了 UMASS 大学，Waterloo 大学，Meta 在内的多个大学和机构，于 2025 年 8 月 9 日荣登榜单第一名。我们更小尺寸的 ReasonRank-7B 也远远超越了其他 32B 大小的推理型排序大模型，同时相比 pointwise 排序器具备明显的效率优势。此外，我们的论文还获得了 Huggingface paper 日榜第一名。

^{图 1：8 月 9 日，ReasonRank 在 BRIGHT benchmark 上荣登榜单第一名}

论文标题：ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability
论文链接：https://arxiv.org/pdf/2508.07050
代码仓库：https://github.com/8421BCD/ReasonRank/
开源数据 & 模型：https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2

研究动机：复杂推理型训练数据的缺乏

近来，test-time reasoning 已经被证明能够提升文档排序器的排序效果。其通过在给出最终排序结果前，先显式进行一系列推理过程（查询理解，文档比较等等）。然而，由于推理密集型（reasoning-intensive）排序训练数据的稀缺，现有推理型排序器均依赖 MSMARCO 这种传统 web 搜索数据进行训练。

这些数据主要侧重简单的语义或词匹配，导致模型在面临复杂搜索场景（如 StackExchange 复杂查询、代码类查询、数学类查询等）时泛化能力受限。而使用人工标注构造推理密集型排序训练数据代价又是非常高的。

方法设计：数据合成 + 两阶段训练

为破解推理密集型排序训练数据稀缺的问题，我们提出了基于 DeepSeek-R1 的自动化数据合成框架，生成了 13K 高质量的推理密集型 listwise 排序训练数据。基于合成的训练数据，我们进一步设计了一个两阶段的训练框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。在 RL 阶段，不同于以往仅使用排序指标作为奖励（reward），我们基于 listwise 排序中滑动窗口策略的特性设计了 multi-view ranking reward，其更适合 listwise 排序。

1. 数据合成

传统模型在复杂排序任务上表现差，主要是由于缺少面向复杂推理搜索场景的训练数据的缺失。根据已有的 IR benchmarks，我们将复杂搜索查询分为四大类并收集了对应领域的用户查询：

复杂问答型查询
代码类查询
数学类查询
网页搜索类查询

有了查询，如何挖掘高质量的候选文档列表以及构造训练 label 是一个关键问题，其直接影响模型训练的效果。

在本文，我们提出利用强大的 DeepSeek-R1 从海量的 web 页面和已有的文档 corpus 挖掘其相关文档以及不相关文档（包含难负例）。在这个过程，我们还给 R1 提供了 query 的人工标注的正确答案来提高挖掘的准确性，相比传统蒸馏，这样能够进一步提升 R1 相关性判断的准确性。

这样我们便得到了文档的 pointwise 训练标签（相关 / 不相关）。为了训练最终的 listwise 排序器，我们继续利用 DeepSeek-R1 对候选文档进行 listwise 排序，得到 listwise 训练标签（包含推理链以及最终的 gold ranking list）。

为了提升训练数据的质量，我们进一步设计了一个自一致性（self-consistency）数据过滤机制。

我们利用得到的 pointwise 标签对 listwise 标签中的 gold ranking list 计算排序指标 NDCG@10，小于阈值 α 的数据将被过滤掉（表明教师模型 R1 判断不一致，相应数据样本被丢弃），最终我们得到 13K 高质量的多领域训练数据集。

2. 两阶段训练

阶段一：冷启动 SFT

在获得高质量的推理密集型训练数据后，我们首先采用监督微调对大模型进行 “冷启动” 训练，通过 R1 的推理链显式引导模型学习如何对一组文档进行对比、推理和排序。具体而言，输入由用户查询和对应的候选文档列表组成，输出为 listwise label（也即 R1 生成的推理链和 gold ranking list）。

阶段二：多视角排序 reward 的强化学习

多视角排序 reward

1) 召回视角（Recall@10）：

现有方法在强化学习训练排序任务中，通常只采用单轮的 NDCG@10 作为奖励信号。然而，我们认为这种单轮奖励对于多轮滑动窗口的 listwise 排序任务而言是次优的。这是因为滑动窗口策略要求模型在排序时进行多轮、序列化的局部决策：每一步窗口内的前 10 个文档才会被传递给下一个排序窗口，并通过滑动窗口不断迭代，实现整体排序。此时，单独优化每一窗口的 NDCG 指标，并不一定能够带来全局最优的排序效果。基于上述观察，我们在强化学习奖励设计中，额外引入了 Recall@10 指标来确保重要文档不会在滑动过程中被遗漏，有助于后续窗口获得更优的排序基础。

2) 排序相似度视角（RBO）：

此外，相较于基于 pointwise 标签计算 NDCG@10，我们认为 listwise 训练标签的 gold ranking list 能够提供更细粒度的排序信号。因此，我们引入 RBO（Rank-biased Overlap）指标，作为补充排序奖励，用于衡量当前排序结果与金标准排序的相似性。

我们将 NDCG@10、Recall@10 和 RBO 结合，构建了多视角排序奖励：

格式 reward

为了保证正确的输出格式，我们考虑了两种格式：

（1）输出格式：保证输出内容嵌套在 <think> 和 < answer > 标签中；

（2）答案格式：<answer > 标签内的排序列表要满足特定的输出格式（例如：[4] > [2] > …）。

最终，我们的强化学习 reward 计算如下，我们使用 GRPO 算法进行 RL 优化。

核心实验 1：多个 benchmarks 上效果实现 SOTA

为充分评估 ReasonRank 在不同推理型搜索任务上的效果，我们选取了两个推理型 IR benchmark：

BRIGHT：包含 12 个推理密集型搜索任务，涉及复杂问答型检索，代码类检索，定理类检索等等
R2MED：包含 8 个面向医疗类的复杂查询检索数据集，覆盖问答参考文献检索、临床证据检索和临床病例检索

从实验结果可以发现：ReasonRank 显著优于已有的排序器。ReasonRank（32B）在 BRIGHT 和 R2MED 上分别超越最好的 baselines 4-5 个点；且 ReasonRank（7B）甚至优于所有的 32B 的 baselines。

此外，我们还在传统 IR benchmark BEIR 上开展了实验，结果证明了其良好的泛化性。

核心实验 2：效率优势

我们还在 BRIGHT 上测试了 ReasonRank 的排序效率，并与推理型 pointwise 排序器 Rank1 比较。在以往，pointwise 排序器被认为是最高效的。然而，推理场景下，我们发现我们的 listwise 排序器 ReasonRank 效率显著高于 pointwise 排序器 Rank1。这种高效性来自于 Rank1 需要为每个段落生成推理链，而 ReasonRank 一次处理 20 个段落，只生成一条推理链，大大减少了输出的 token 数量。

核心实验 3：消融实验

我们还开展了详尽的消融实验，结果证明了我们构造的多领域数据集相比于单领域（MSMARCO）的效果优势以及我们两阶段训练框架和 multi-view ranking reward 设计的合理性。

总结与未来展望

我们在本文提出了多领域面向推理型排序的训练数据，解决了训练数据上的难题。并设计了合理的 SFT 和 RL 训练方法，充分激发了推理型排序器的效果。未来，如何基于大模型的推理能力继续提升搜索排序器的效果，我们认为仍有多个方向值得探索：

引入非推理型数据：未来可以在训练过程中融合非推理型数据，使模型能够灵活适应不同难度的搜索场景，在推理与非推理模式间自如切换，提升排序器的通用性和实用性。
探索基于全排序（full ranking）的推理型重排序方法：已有的工作已经证明 LLM 一次排序全部候选文档的能力。未来可以结合 LLM 强大的全排序能力，研究基于推理的全局排序方法，替代当前的滑动窗口策略，以提升模型在大规模文档排序任务中的效率和表现。
尝试多样化模型骨干：后续可尝试以 Llama 3.1、以及推理型 LRM（例如 Qwen3）等更多不同类型的大语言模型作为 ReasonRank 的基础，进一步验证方法的通用性和有效性。

]]>

动态列表

击败Meta登榜首：推理增强的文档排序模型ReasonRank来了

类别

资源

联系我们