动态列表

  • 重磅!DeepSeek再开源:视觉即压缩,100个token干翻7000个
  • 全球首个「长肌腱」AI机器人量产!Nature盛赞的中国方案惊艳IROS现场
  • 甲骨文推出全球最大AI超算,作为OpenAI「星际之门」算力核心
  • MagicOS已成世界「第三极」,荣耀拿下AI大战叙事权
  • 美国拟减40%国际生,留学风向要变?Nature曝全球高校大洗牌
  • 美 NSA 被曝网攻中国「时间心脏」;微博王高飞:企业别把批评和黑公关混为一谈;传运营艰难,安世中国发公开信回应
  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • Real-world Video Super-Resolution | VSR的十字路口
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产

不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO

原创 让你更懂AI的 2025-10-19 12:35 北京

重新定义推理:训练之外,采样之内

不靠强化学习、不做额外训练、不用校验器,也不需要复杂提示——哈佛团队提出的「Power Sampling」仅靠重新设计采样分布,就让基座模型的单发推理媲美 GRPO,还保持了多样性不坍缩。

强化学习(RL)一直被认为是让语言模型“会思考”的关键手段,但它训练成本高、流程繁琐——从奖励函数到稳定优化,再到校验器微调,每一步都需要额外算力与精心设计。

哈佛团队发现,推理能力并非只能依赖训练获得。只要重新定义采样方式,也能在推理阶段激活模型的潜在能力。

他们提出的「Power Sampling」基于一个简单的理念:将原始生成分布 替换为幂分布 ,让采样器对未来路径的优劣更敏感。这样,模型在生成过程中会自发偏向更合理、更具逻辑性的推理链条

无需 RL、无需再训练、无需 verifier,也无需复杂 prompting,这种“纯采样式推理”就能让基座模型在 MATH500、HumanEval、GPQA 等任务上单发媲美 GRPO,多发更胜一筹

论文标题:

Reasoning with Sampling: Your Base Model is Smarter Than You Think

论文链接:

https://arxiv.org/pdf/2510.14901

项目主页:

https://aakaran.github.io/reasoning_with_sampling/

代码链接:

https://github.com/aakaran/reasoning-with-sampling

在可视化演示中,随着采样迭代推进,模型会在关键节点反复回退、重采样,逐步收敛到正确答案——让人意识到,推理能力其实早已存在,只是此前的采样方式未能显现。

研究背景

过去两年,大语言模型的推理能力几乎都靠强化学习(RL)“炼”出来。从 GPT-4、Claude 3 到 DeepSeek-R1,几乎所有顶级模型都遵循同样的流程:先预训练,再通过 RLHF、RLVR 或 GRPO 做后训练。

这些方法确实提升了模型在 MATH、HumanEval、GPQA 等推理基准上的表现,但研究者发现——这种提升的本质可能被高估了

作者团队指出,强化学习的改进往往来自一种分布锐化(distribution sharpening):模型并没有学会新的推理,而是更频繁地从原本就“高似然”的区域采样。换句话说,模型看似更聪明,实则只是更偏向输出自信答案。

代价是明显的——多样性坍缩。在 GRPO 等强化方法下,模型输出集中在少数高概率模式,原本丰富的思维空间被压缩殆尽。

作者团队由此意识到:强化学习的核心,也许只是隐式地改变了采样器的行为。如果推理能力的提升源于这种分布重塑,那是否可以不经训练,仅靠采样方式实现同样的效果?

他们的答案是肯定的。一种名为 Power Sampling 的采样策略由此诞生——它让模型在生成过程中不再“盲目往前走”,而能主动感知并修正未来路径的走向。

论文方法

语言模型的生成机制本质上是自回归的:在每一步 ,模型根据已有前缀 预测下一个 token 的条件概率 ,整段序列的联合分布为:

这种方式虽然高效,却“目光短浅”——每步只关心当前似然,不考虑未来是否能形成逻辑闭环。作者团队的洞见是:不必再训练模型,只需在采样阶段重新定义分布。

2.1 从 :分布级的再塑形

他们将目标分布从 替换为 ),放大高似然路径的相对权重:

相比之下,常见的低温采样(temperature sampling)仅在每步条件分布上幂缩放:

而 Power Sampling 的目标是整条路径的幂分布 ,因此其下一步条件概率需考虑所有可能后续:

于是,低温采样是“先求和再指数”,Power 是“先指数再求和”。这种顺序差异让模型更偏向那些虽稀有但能导向正确答案的关键 token

2.2 MCMC:把 变成可采样分布

直接从 采样几乎不可能——归一化常数需遍历指数级序列。论文采用 Metropolis–Hastings (MH) 机制:

为提议分布,通常取模型自身的采样分布。作者设计了“随机重采样提议”:随机选取位置 ,从提议模型 重新生成尾段,再按上式判断是否接受。

图1. 在位置 t 回退并重采样尾段,按接受率 A 判断保留或回退。

“回退 – 重采样 – 接受”循环的动态过程

2.3 分块自回归 MCMC:边写边修正

整段 MH 更新代价高昂,作者提出分块自回归 MCMC(Blockwise Autoregressive MCMC)。将序列划分为若干块(每块 B 个 token),定义中间目标分布:

算法逐块推进:每块先由基座模型生成初稿,再进行多次 MCMC “回退—重采样—接受” 更新。块完成后锁定前缀并进入下一块,相当于模型在生成中自我纠偏

图2:逐块推进、块内多步 MCMC 更新的伪代码流程。

2.4 “关键token”现象:为何更容易“走对路”

理论上,Power Sampling 更容易上调那些“关键 token”——即出现概率较低但决定整体正确性的词。

在论文的形式化分析中,研究者定义了两类具有代表性的 token :

  • 正关键 token(positive pivotal token):其全部概率质量集中于单一高似然结局;

  • 负关键 token(negative pivotal token):其概率质量分散在 N 个低似然结局上。

当两者的边际权重分别为 时,命题 3 指出,只要满足:

Power 分布就会上调正关键 token,而低温采样则会反向偏好负关键 token。 这意味着即便正关键 token 在原始分布下权重更小,Power 采样仍能凭借幂分布的再加权机制,将生成路径引向更高整体似然的结局。

换句话说,Power Sampling 能够在关键分叉处自动避开低质量路线,走向更优解答

实验结果

Power Sampling 的效果堪称“反直觉”:它既让推理更准,又让生成更活。

研究团队在 Qwen2.5-Math、Qwen2.5、Phi-3.5 等基座模型上,横跨 MATH500、HumanEval、GPQA、AlpacaEval 四类任务进行评测,涵盖数学、代码、科学与通用问答四个维度。

3.1 单发(single-shot):推理精度几乎追平GRPO

▲ 图3. 在多个基座与任务上,Power Sampling 的单发准确率普遍与 GRPO 持平或略高。

在 MATH500 上,Qwen2.5-Math-7B 的基座模型单发准确率约 49.6%,GRPO 训练后提升到 78.5%;而 Power Sampling 仅靠采样,无需任何训练,就达到了 74.8%。

在 HumanEval(代码任务)中,它甚至略高于 GRPO。这意味着:同一模型,只靠改采样器,就能跨越通常需要几万 GPU 小时的强化学习提升。更重要的是,它不依赖“可验证奖励”。

在 AlpacaEval 这类无法明确定义对错的生成任务上,Power Sampling 依旧提升显著——说明它不是靠“答对答案”,而是让推理链条更稳、更自洽

3.2 多发(pass@k):性能继续上升,分布不坍缩

RL 后训练的一个常见问题是——多样性消失。模型输出被压到高似然峰值附近,生成结果趋同,pass@k 曲线在小 k 之后就不再上升。

Power Sampling 正好相反:它的 pass@k 曲线随着 k 增大持续抬升,并最终贴近基座的上界。

▲ 图4. Qwen2.5-Math-7B 在 MATH500 任务上的 pass@k 表现。Power Sampling(深蓝)在全 k 范围内均高于 GRPO(蓝)与 Base(浅蓝),且在高 k 区间与 Base 上界重合,说明在提升推理性能的同时保持了生成多样性。

这说明 Power Sampling 不仅提升了首选答案的正确率,还保留了探索能力。 换句话说,它不会一味地“越训越窄”,而是让模型在多样性与准确性之间找到新的平衡点。

3.3 可控性超参调节与推理时可扩展性

Power Sampling 只有两个关键超参:

  • 幂指数 控制“锐化”程度(实验表明 最优);

  • 每块 MCMC 步数 决定推理强度(2→10 步性能持续提升)。

研究者指出,Power Sampling 具备“测试时可扩展性”:算力越多,性能越高。这意味着在推理服务中可以动态分配计算预算——复杂任务多抽样,简单任务少抽样,实现性能与成本的平衡。

▲ 图5. 在 MATH500(基座:Qwen2.5-Math-7B)上,比较 Base / Power / GRPO 的输出分布。左:相对对数似然直方图;右:相对置信度直方图。GRPO 样本集中于最高似然与最高置信区域,Power 也明显右移但仍保持分布宽度,体现了在提升准确率的同时并未牺牲多样性。

结语

哈佛团队的这项研究带来的震动不只是实验结果,而是它传递的思想转向:我们一直把“智能的增长”寄托在训练阶段——换算法、加数据、堆算力。而这项工作告诉我们,推理能力可能早已存在于基座模型的分布之中,只是被普通采样方式掩盖了。

通过 的重新加权与自回归 MCMC 的融合,Power Sampling 在不更新权重的前提下,实现了与强化学习相近的推理提升。它像是在说:模型已经知道怎么思考,只是采样器太笨,没让它说出来。

这项方法并不会取代强化学习——但它重新定义了一个被忽视的层面:“采样也是推理的一部分。” 在未来的大模型体系中,采样器或许会成为新的“训练范式”:它不需要更多参数,却能释放潜藏的能力。而“推理智能”的下一次跃迁,可能就从一次采样开始。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们