动态列表

OpenAI重组GPT-5「灵魂」团队！亚裔女负责人遭调离，罕见自曝AI幻觉祸首
设计师大解放！清华发布「建筑平面图」自动生成模型 | ACL'25
谁不用谁亏！Karpathy吹爆GPT-5：10分钟编码完胜Claude一小时，奥特曼秒回感谢
震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？
Anthropic被作家告了，违规下载700万本书，15亿美元和解了
英伟达的局：狂撒15亿美元，从Lambda那租到了搭载自家AI芯片的GPU服务器
OpenAI罕见发论文：我们找到了AI幻觉的罪魁祸首
00后以1.1亿美金「掀桌」，硅谷AI将书写影视新传奇终结制片旧时代
任意骨骼系统的模型都能驱动？AnimaX提出基于世界模型的3D动画生成新范式
IEEE TPAMI 2025｜ PointGST：参数量仅0.67%，精度首破99%，三维点云处理迎来谱域新范式！
ICCV 2025 | MOSEv2 全新亮相，第七届 LSVOS 挑战赛正式开启！
华为新问界 M7，6 小时订单破 13 万；等 eSIM，iPhone17 Air 首发无国行；特斯拉拟给马斯克 1 万亿薪酬
力压哈佛MIT！北交大、清华勇夺2025国际大学生程序设计竞赛金牌
长视频生成可以回头看了！牛津提出「记忆增稳」，速度提升12倍
0.01%参数定生死！苹果揭秘LLM「超级权重」，删掉就会胡说八道
今天，特朗普闭门宴请了大半个硅谷的CEO，马斯克老黄没来
追觅给洗地机，加了一双「灵巧手」
被网友逼着改名的谷歌Nano Banana，正在抢99%时尚博主的饭碗
不止会动嘴，还会「思考」！字节跳动发布OmniHuman-1.5，让虚拟人拥有逻辑灵魂
外滩大会主论坛阵容揭幕！顶级学者、产业领袖和青年创新力量共话未来
第一家 AI 浏览器公司，卖了 43 亿！
Nano Banana爆火之后，一个神秘的「胡萝卜」代码模型又上线了
博士申请 | 香港中文大学（深圳）游宇宁老师招收人工智能+生物医药全奖博士/实习生
KDD 2025 | 图异常基础模型来了：跨域零样本、少样本微调，原型残差全拿下
透明度罕见！百川公开M2完整技术报告，强化学习新范式引发行业关注
沉寂一个月，openPangu性能飙升8%！华为1B开源模型来了
多模态大模型持续学习系列研究，综述+Benchmark+方法+Codebase一网打尽！
TPAMI重磅综述：一文读懂人类动作视频生成的五大阶段与三大多模态技术
拓展天文学认知边界，Google DeepMind用AI助力LIGO，填补宇宙演化史缺失环节
拍我AI限时免费6天！手办、宠物、奇幻创意随你生成不限次！
传 DeepSeek AI 代理新模型年底发布；马斯克「金色擎天柱」首曝；比亚迪不回应销量下调传闻
通用LLM压缩算法，居然藏视频编码里！2.5bit实现4bit性能，硬件无缝支持
83岁用DeepSeek抢单，96岁凭AI挣养老钱！这群80+老人比你还会玩AI
「纳米香蕉」LMArena两周500万投票，引爆10倍流量！谷歌、OpenAI扎堆打擂台
DeepSeek大招曝光？梁文峰督战超级智能体：能自主学习，或年底发布
24999 元！华为推了一个「最大」的 Mate！
刚刚，李飞飞主讲的斯坦福经典CV课「2025 CS231n」免费可看了
又多了一个哄孩子AI神器，一张破涂鸦竟能秒变迪士尼动画
PosterGen：告别学术海报制作烦恼，从PDF一键生成「演示级」可编辑PPTX学术海报
「一句话生成爆款视频」，这款 AI 流量神器有点东西｜AI 上新
Claude Code凭什么牛？大模型团队天天用自家产品，发现bug直接就改了
刚刚，OpenAI发布白皮书：如何在AI时代保持领先
科研AI的进化论！系统梳理600+数据集与模型，上海AI Lab等发布科学大语言模型全景式综述
腾讯 ARC Lab 开源 IC-Custom ：一个强大且灵活的图像定制化工具！
长视频AI数字人来了！字节×浙大推出商用级音频驱动数字人模型InfinityHuman
全奖读AI！人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
SIGCOMM 2025｜重新定义个性化视频体验，快手与清华联合提出灵犀系统
拜读了某大佬发表的N篇顶会，原来论文“灌水”是这么玩的
北京内推 | 阿里夸克教育团队招聘推荐大模型数据算法实习生
听见空间！ASAudio全景综述：空间音频表示→理解→生成全链路
多模态大模型，真的“懂”世界吗？ICML 2025高分论文实锤核心认知盲区
特斯拉下一代金色Optimus原型现身？一双「假手」成为最大槽点
让具身智能体拥有「空间感」！清华、北航联合提出类脑空间认知框架，导航、推理、做早餐样样精通
传特斯拉 Model Y L 日均订单过万；苹果联手谷歌，Siri 整合 Gemini；优必选获 2.5 亿，全球最大人形机器人订单
UCSD首个智能体浏览器发布！多页面设计，颠覆传统交互
Hinton最新警告：杀手机器人或将带来更多战争，最大担忧是AI接管人类
AI教父Hinton诺奖演讲首登顶刊！拒绝公式，让全场秒懂「玻尔兹曼机」
奥数金牌只是序章！OpenAI谷歌彻底打脸预言家，AI巨浪势不可挡
出货 1000 万台硬件后，我们和「凯叔讲故事」聊了聊「AI玩具」的核心
他不懂代码，却用 AI 黑掉 17 家医院和机构，Vibe Hacking 让全世界变成缅北
刚刚，谷歌放出Nano Banana六大正宗Prompt玩法，手残党速来
Anthropic承认模型降智后仍放任其偷懒？Claude Code用户信任崩塌中
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
ICLR 2025｜KGExplainer：让新知识的发现“有理可循”
入局AI4S？CPO宣布「OpenAI for Science」计划：打造下一代科学工具
2025外滩大会下周开幕 16位院士、图灵奖得主领衔40多场思想盛宴
从复刻魔术开始，RoboMirage打开了机器人仿真的新世界
宇树科技官宣：年内提交IPO，或将冲刺科创板
其实，扩散语言模型在最终解码之前很久，就已确定最终答案
语音分离最全综述来了！清华等团队深度分析200+文章，系统解析「鸡尾酒会问题」研究
北京/苏州内推 | 微软亚太研发集团招聘AI智能预测实习生
原子思维上线！Agentic Deep Research再进化：推理更深、答案更准
【9月9日直播】大模型复杂推理技术：如何重塑AI推理逻辑
Benchmark新试炼场！从棋盘到德扑全覆盖，GAMEBoT虐测大模型推理力
USO：鱼与熊掌亦可兼得，字节跳动提出统一框架，完美融合主体与风格生成
刚刚，Anthropic在质疑声中获130亿美元融资，估值达1830亿
IROS 2025 | 机器人衣物折叠新范式，NUS邵林团队用MetaFold解耦轨迹与动作
iPhone 17定价曝光，仅Pro涨价；李斌：4季度实现月卖5万台车；COD「使命召唤」大电影官宣｜极客早知道
一张卡片，不仅 AI 了我的工作，还摸清了我的八字和 MBTI？｜AI 上新
马斯克曝终极AI计划！特斯拉堵上80%身家：500亿机器人打工，人类坐等拿钱
别错过这场AGI风暴！清华人大等AI大佬集结，剑指数字和物理世界进化
AI杀死首个世界名校？全球TOP 3「翻译界哈佛」倒闭，毕业校友成绝版
无惧AI失业潮的「铁饭碗」，微软揭秘了！能干到退休
为什么在小红书里的「电商」，长成了「市集」的模样
开学&教师节双重豪礼，英博云算力低至8毛8/卡时，赶紧薅起来
苹果新研究：不微调、不重训，如何让AI提问效率暴增6.5倍？
Scaling Laws起源于1993年？OpenAI总裁：深度学习的根本已揭秘
告别无效计算！新TTS框架拯救19%被埋没答案，推理准确率飙升
结构高度合理、具备理想特性，华东师大等提出分子生成新方法，协同生成原子与化学键
博士申请 | 北京大学计算机学院-中国电信招收计算机视觉方向联培博士生
ACM MM Asia火热征稿中！低年级PhD友好，不卷SOTA只看新意
经典机械物理模型 × 深度学习：揭开神经网络特征学习的秘密
ICML 2025 | 从联合空间到文本空间：测试时增强跨模态检索新范式
冲上热搜！美团大模型，靠「快」火了
DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？
ICCV 2025 | InterVLA：聚焦第一视角感知决策，大规模通用人-物-人交互数据集与评测基准
AI读网页，这次真不一样了，谷歌Gemini解锁「详解网页」新技能
性能逼近闭源最强，通义实验室开源Mobile-Agent-v3刷新10项GUI基准SOTA
广告，救不了 AI 搜索
14B打败671B！微软rStar2-Agent在数学推理上超过DeepSeek-R1
自搜索强化学习SSRL：Agentic RL的Sim2Real时刻
全球机器翻译比赛拿下30个语种第1名，腾讯混元翻译模型开源
腾讯回应米哈游起诉：QQ用户资料不能随便给；特斯拉首曝Cyber SUV；外卖「小电驴」须装北斗定位｜极客早知道
NeurIPS近3万投稿爆仓，强拒400篇论文！博士疯狂内卷，AI顶会噩梦来袭
同行评审濒临崩溃！一篇审稿报告450美元？科学家不再愿意「用爱发电」
CEO卷款夜逃迪拜，15亿美元独角兽爆雷！700印度码农冒充AI，坑惨微软
刚刚，DeepSeek最新发文！V3/R1训练细节全公开，信息量巨大
让图像会说话！视觉Token注入CLIP语义，TokLIP重塑多模态理解与生成
EMNLP 2025｜人声解耦×伴奏对齐！浙大VersBand打造提示可控的歌曲生成框架
北京内推 | 联想研究院AI Lab招聘大模型算法实习生
GRPO偷偷优化Pass@K？从0-1奖励到无偏策略，DeepMind揭示全面解法
快手的 2025：一个4亿人社区的新陈代谢，与2600万人的变现之路
开学了：入门AI，可以从这第一课开始
OpenAI大神：人工智能导论课程停在15年前，本科首选该是机器学习导论
中国电竞，已经是 Next Level！
NeurIPS 2025：高分论文也可能被拒，只为保住那25%左右的接收率？
DeepSeek、GPT-5都在尝试的快慢思考切换，有了更智能版本，还是多模态
把实验与计算「缝」到一张「地图」上：AI让材料发现路线更直观、可解释
字节跳动提出OneReward：一个奖励模型统一多任务图像生成，效果全面超越PS！
从「卖设备」到「建关系」，AI 硬件的破局点到底在哪里？
首个为具身智能而生的大规模强化学习框架RLinf！清华、北京中关村学院、无问芯穹等重磅开源
科普向：一文解构大模型后训练，GRPO和它的继任者们的前世今生
科研智能体「漫游指南」—助你构建领域专属科研智能体
今起 AI 生成内容必须亮明身份；大疆双摄 Pocket 4 曝光；微信公号留言广告上线
GPT-5冷酷操盘，狼人杀一战封神！七大LLM狂飙演技，人类玩家看完沉默
柳叶刀惊曝：AI让医生6个月「废功」20%，癌症检出率崩盘！
硅谷炸雷！xAI创始老哥携机密叛逃OpenAI，马斯克：他上传了整个代码库
143亿美金买来一场空！小扎向谷歌OpenAI低头，史上最大AI赌注失速
北京内推 | 微软DKI大模型团队招聘大模型/Agent/广告推荐方向研究型实习生
性能超越GPT-5，成本减30%！大模型装上智能路由，Avengers-Pro刷新性价比极限
EMNLP 2025 | 看图就越狱！视觉上下文攻击：“图像语境”一招撬开多模态大模型
动态压缩CoT！浙大×蚂蚁发布LightThinker，让模型推理“轻起来”
POSE：100倍加速视频生成，腾讯混元提出单步对抗平衡蒸馏框架
那天，AI大模型想起了，被「失忆」所束缚的枷锁
LLM也具有身份认同？当LLM发现博弈对手是自己时，行为变化了
AI智能体是否能预测未来？字节跳动seed发布FutureX动态评测基准
混乱、内耗、丑闻：Meta考虑向Google、OpenAI低头
这个荒诞网站藏着30个AI「鬼点子」，但我觉得它活不长
R-Zero 深度解析：无需人类数据，AI 如何实现自我进化？
DeepSeek、GPT-5带头转向混合推理，一个token也不能浪费
CodeAgent 2.0 时代开启｜GitTaskBench，颠覆性定义代码智能体实战交付新标准

推理加持的排序SOTA！把“召回+相似度”写进RL，文档排序更稳更准

2025-09-05未知作者来源

让你更懂AI的 2025-09-05 13:05 北京

小而强！

推理大模型（Large Reasoning Model）极大的促进了自然语言处理领域的发展，而信息检索领域的核心问题之一是文档排序，如何利用强大的推理大模型通过主动推理来判断文档的相关性，进而再对文档进行排序是一个值得探索的方向。

在本次工作中，我们提出了 ReasonRank，ReasonRank 在包括 BRIGHT、R2MED 在内的多个榜单，击败了 UMASS 大学，Waterloo 大学，Meta 在内的多个大学和机构，于 2025 年 8 月 9 日荣登榜单第一名。

我们更小尺寸的 ReasonRank-7B 也远远超越了其他 32B 大小的推理型排序大模型，同时相比 pointwise 排序器具备明显的效率优势。此外，我们的论文还获得了 Huggingface paper 日榜第一名。

▲ 图1. 8月9日，ReasonRank在BRIGHT benchmark上荣登榜单第一名

论文标题：

ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

论文链接：

https://arxiv.org/pdf/2508.07050

代码链接：

https://github.com/8421BCD/ReasonRank/

开源数据 & 模型：

https://huggingface.co/collections/liuwenhan/reasonrank-68941e9e6af7edd3714ee6e2

研究动机：复杂推理型训练数据的缺乏

近来，test-time reasoning 已经被证明能够提升文档排序器的排序效果。其通过在给出最终排序结果前，先显式进行一系列推理过程（查询理解，文档比较等等）。然而，由于推理密集型（reasoning-intensive）排序训练数据的稀缺，现有推理型排序器均依赖 MSMARCO 这种传统 web 搜索数据进行训练。

这些数据主要侧重简单的语义或词匹配，导致模型在面临复杂搜索场景（如 StackExchange 复杂查询、代码类查询、数学类查询等）时泛化能力受限。而使用人工标注构造推理密集型排序训练数据代价又是非常高的。

方法设计：数据合成 + 两阶段训练

为破解推理密集型排序训练数据稀缺的问题，我们提出了基于 DeepSeek-R1 的自动化数据合成框架，生成了 13K 高质量的推理密集型 listwise 排序训练数据。

基于合成的训练数据，我们进一步设计了一个两阶段的训练框架包括 Supervised Fine-Tuning (SFT) 和 Reinforcement Learning (RL)。

在 RL 阶段，不同于以往仅使用排序指标作为奖励（reward），我们基于 listwise 排序中滑动窗口策略的特性设计了 multi-view ranking reward，其更适合 listwise 排序。

1. 数据合成

传统模型在复杂排序任务上表现差，主要是由于缺少面向复杂推理搜索场景的训练数据的缺失。根据已有的 IR benchmarks，我们将复杂搜索查询分为四大类并收集了对应领域的用户查询：

复杂问答型查询
代码类查询
数学类查询
网页搜索类查询

有了查询，如何挖掘高质量的候选文档列表以及构造训练 label 是一个关键问题，其直接影响模型训练的效果。

在本文，我们提出利用强大的 DeepSeek-R1 从海量的 web 页面和已有的文档 corpus 挖掘其相关文档以及不相关文档（包含难负例）。在这个过程，我们还给 R1 提供了 query 的人工标注的正确答案来提高挖掘的准确性，相比传统蒸馏，这样能够进一步提升 R1 相关性判断的准确性。

这样我们便得到了文档的 pointwise 训练标签（相关 / 不相关）。为了训练最终的 listwise 排序器，我们继续利用 DeepSeek-R1 对候选文档进行 listwise 排序，得到 listwise 训练标签（包含推理链以及最终的 gold ranking list）。

为了提升训练数据的质量，我们进一步设计了一个自一致性（self-consistency）数据过滤机制。

我们利用得到的 pointwise 标签对 listwise 标签中的 gold ranking list 计算排序指标 NDCG@10，小于阈值 α 的数据将被过滤掉（表明教师模型 R1 判断不一致，相应数据样本被丢弃），最终我们得到 13K 高质量的多领域训练数据集。

2. 两阶段训练

阶段一：冷启动 SFT

在获得高质量的推理密集型训练数据后，我们首先采用监督微调对大模型进行 “冷启动” 训练，通过 R1 的推理链显式引导模型学习如何对一组文档进行对比、推理和排序。具体而言，输入由用户查询和对应的候选文档列表组成，输出为 listwise label（也即 R1 生成的推理链和 gold ranking list）。

阶段二：多视角排序 reward 的强化学习

多视角排序 reward

1) 召回视角（Recall@10）：现有方法在强化学习训练排序任务中，通常只采用单轮的 NDCG@10 作为奖励信号。然而，我们认为这种单轮奖励对于多轮滑动窗口的 listwise 排序任务而言是次优的。

这是因为滑动窗口策略要求模型在排序时进行多轮、序列化的局部决策：每一步窗口内的前 10 个文档才会被传递给下一个排序窗口，并通过滑动窗口不断迭代，实现整体排序。此时，单独优化每一窗口的 NDCG 指标，并不一定能够带来全局最优的排序效果。

基于上述观察，我们在强化学习奖励设计中，额外引入了 Recall@10 指标来确保重要文档不会在滑动过程中被遗漏，有助于后续窗口获得更优的排序基础。

2) 排序相似度视角（RBO）：此外，相较于基于 pointwise 标签计算 NDCG@10，我们认为 listwise 训练标签的 gold ranking list 能够提供更细粒度的排序信号。

因此，我们引入 RBO（Rank-biased Overlap）指标，作为补充排序奖励，用于衡量当前排序结果与金标准排序的相似性。

我们将 NDCG@10、Recall@10 和 RBO 结合，构建了多视角排序奖励：

格式 reward

为了保证正确的输出格式，我们考虑了两种格式：

1. 输出格式：保证输出内容嵌套在 <think> 和 < answer > 标签中；

2. 答案格式：<answer > 标签内的排序列表要满足特定的输出格式（例如：[4] > [2] > …）。

最终，我们的强化学习 reward 计算如下，我们使用 GRPO 算法进行 RL 优化。

核心实验1：多个benchmark上效果实现SOTA

为充分评估 ReasonRank 在不同推理型搜索任务上的效果，我们选取了两个推理型 IR benchmark：

BRIGHT：包含 12 个推理密集型搜索任务，涉及复杂问答型检索，代码类检索，定理类检索等等
R2MED：包含 8 个面向医疗类的复杂查询检索数据集，覆盖问答参考文献检索、临床证据检索和临床病例检索

从实验结果可以发现：ReasonRank 显著优于已有的排序器。ReasonRank（32B）在 BRIGHT 和 R2MED 上分别超越最好的 baselines 4-5 个点；且 ReasonRank（7B）甚至优于所有的 32B 的 baselines。

此外，我们还在传统 IR benchmark BEIR 上开展了实验，结果证明了其良好的泛化性。

核心实验2：效率优势

我们还在 BRIGHT 上测试了 ReasonRank 的排序效率，并与推理型 pointwise 排序器 Rank1 比较。

在以往，pointwise 排序器被认为是最高效的。然而，推理场景下，我们发现我们的 listwise 排序器 ReasonRank 效率显著高于 pointwise 排序器 Rank1。

这种高效性来自于 Rank1 需要为每个段落生成推理链，而 ReasonRank 一次处理 20 个段落，只生成一条推理链，大大减少了输出的 token 数量。

核心实验3：消融实验

我们还开展了详尽的消融实验，结果证明了我们构造的多领域数据集相比于单领域（MSMARCO）的效果优势以及我们两阶段训练框架和 multi-view ranking reward 设计的合理性。

总结与未来展望

我们在本文提出了多领域面向推理型排序的训练数据，解决了训练数据上的难题。并设计了合理的 SFT 和 RL 训练方法，充分激发了推理型排序器的效果。未来，如何基于大模型的推理能力继续提升搜索排序器的效果，我们认为仍有多个方向值得探索：

引入非推理型数据：未来可以在训练过程中融合非推理型数据，使模型能够灵活适应不同难度的搜索场景，在推理与非推理模式间自如切换，提升排序器的通用性和实用性。
探索基于全排序（full ranking）的推理型重排序方法：已有的工作已经证明 LLM 一次排序全部候选文档的能力。未来可以结合 LLM 强大的全排序能力，研究基于推理的全局排序方法，替代当前的滑动窗口策略，以提升模型在大规模文档排序任务中的效率和表现。
尝试多样化模型骨干：后续可尝试以 Llama 3.1、以及推理型 LRM（例如 Qwen3）等更多不同类型的大语言模型作为 ReasonRank 的基础，进一步验证方法的通用性和有效性。

关于作者：

本文的第一作者是刘文涵，就读于中国人民大学高瓴人工智能学院，博士三年级，导师为窦志成教授，目前在百度大搜部门进行实习。他的研究方向聚焦于 AI 搜索，在顶级国际会议如 ACL、WWW 等发表了多篇论文。

更多阅读