动态列表

  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策

SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位

原创 让你更懂AI的 2025-11-20 13:14 北京

满分时代结束了

过去两年,AIME 等数学基准几乎被主流大模型打到了 90% 以上。可当同一批模型面对 AMO-Bench 时,最高得分也只有 56.0%。

这组反差让一个被忽略已久的疑问重新浮上台面:我们以为已经“很会做题”的模型,在真正的奥赛难度面前到底处于什么水平?

图1. 顶级推理模型在 AMO-Bench 及多数学基准上的正确率对比,AMO-Bench 一栏整体显著下移。

数学推理一直是检验大模型思维能力的关键场景。过去几年,从 GSM8K 到 MATH,再到 AIME,榜单上的成绩一路飙升,看上去大家都已经“做题如喝水”。

但这种繁荣背后也埋下了隐忧:公开题库带来的数据穿越风险越来越难确认,部分任务的正确率甚至突破 90%,几乎没有区分度。

就在行业逐渐适应这种“满分时代”时,美团 LongCat 团队发布了 AMO-Bench。它由 50 道竞赛专家原创题构成,难度对标甚至超过奥赛。

结果非常直接:头部模型的最高成绩也只有 56.0%,而在整体 27 个模型里,大多数还徘徊在 40% 左右甚至更低。

AMO-Bench 像是把刻度再次往后延了一段,让我们第一次清楚看到大模型真正的推理高度还远没有抵达尽头。

论文地址:

https://arxiv.org/abs/2510.26768

项目主页:

https://amo-bench.github.io/

GitHub地址:

https://github.com/meituan-longcat/AMO-Bench

Hugging Face地址

https://huggingface.co/datasets/meituan-longcat/AMO-Bench

旧基准测不动了

AIME、HMMT 曾经是数学推理评测的黄金舞台。每当一个新模型发布,人们第一反应往往不是跑分,而是看它在这些基准上能不能写出高水平解题链。那段时间里,这些榜单确实承担了“刻度尺”的角色。

但随着近两年推理模型的能力快速跃升,情况开始发生变化。头部模型的正确率一路攀升,几乎都摸到了 90% 以上的区间。

题库是公开的,模型在训练阶段是否已经接触过类似模式,也变得难以完全界定。成绩越高,这个问题越无法被忽视。

另一边,IMO、USAMO 这样的奥赛级基准虽然难度足够,却以证明题为主,无法自动评分。评测成本极高,很难构成可持续的评测体系。

多重因素叠加,整个行业迎来了一个尴尬节点:模型变得更强,能真正测出差距的任务却越来越少。大家都意识到刻度尺已经被顶到了尽头,但替代者始终没有出现。

AMO-Bench 的底层设计

当旧基准的刻度被不断压扁时,模型之间的差距已经难以再从这些题目里分辨出来。

更麻烦的是,AIME/HMMT 已经不够难,IMO/USAMO 又无法自动评分,中间的“可评测高难度赛道”长期处于空缺。AMO-Bench 正是在这个缺口上落地的:难度够高,又能反复运行。

AMO-Bench 的价值不只在于难度提升,更重要的是把奥赛级数学重新整理成了一套可以长期复用的评测体系。

从命题、审查,到题型结构和自动评分,它都围绕着同一个问题展开:怎么把奥数难题变成可规模评测的标准材料,而不是一次性的竞赛题?

图2:AMO-Bench 从命题、审查到评分的完整构建流程

2.1 奥赛级原创题库

AMO-Bench 的题库从一开始就选了最难的路:全部题目由具备奥数获奖或命题经验的专家独立设计。命题人熟悉竞赛体系,能确保每道题都具备扎实的数学结构和清晰的推理逻辑。

更值得注意的是,每道题都附有人类专家完整的解题链路,不只给出最后答案,而是把从关键定理应用到每一步推导的路径都写出来。

对模型来说,这条链路像是并行轨道:一旦回答跑偏,能快速对照出是在理解层面走错了,还是推理中途失手。

2.2 三重审查定难度

一套能长期使用的评测题库,要求远不止“难”这一条。题目得足够干净,逻辑要足够扎实,还不能被模型轻轻松松蒙对。所以在命题之后,每道题还要经历三轮审查。

第一轮是专家盲审,确保题意是否清晰、解题过程是否严谨,避免存在语义歧义或逻辑漏洞。

第二轮是原创性审查,通过 n-gram 匹配和网络检索,把可能与公开竞赛题库高度相似的题排除掉,降低“训练时见过类似题”的风险。

第三轮则反过来请最强模型上场做题,如果某道题被多款模型轻松做对,就会被移出候选池。

这一轮又一轮的筛选,实际起到的作用就是:把那些“看着像奥数题,但模型一试就秒杀”的题提前拦掉,只保留真正处在奥赛段位、甚至更高的题目。因此三重审查也是 AMO-Bench 难度稳定性的保证。

2.3 五大方向与链长

如果把 50 道题摊开来看,就会发现它们并不是随意堆出来的难题,而是严格按照数学奥赛的大纲划分为五大方向:代数、几何、数论、组合、函数与数列。这样的设计既拉开了方向,也能一眼看出模型在不同分支上的薄弱环节。

图3. AMO-Bench 在代数、几何、数论、组合、函数/数列五大方向上的题目分布。

比起题目本身,更能拉开模型差距的,是解题链的长度。

LongCat 团队对比了 AMO-Bench、AIME 和 MATH500 的人类标准解,差异非常直观:AMO-Bench 的推理链更长,步骤更多,逻辑密度也明显更高。很多题不再是套个公式就结束,而是要沿着一条从头走到尾的完整推理路径,不容一步出错。

这样的结构会持续放大模型的稳定性差异。只要中间一步判断错了,后面的推导几乎都会被带偏。

图4. AMO-Bench 的人类标准解长度整体高于 AIME/MATH500,对长链推理稳定性要求更高。

2.4 奥数难题自动评分

要让奥赛这种级别的题真正落地,评分就是第一道坎。AMO-Bench 的做法,是在保证难度不缩水的前提下,让题目尽可能具备可验证的最终答案。因此题目形式以数值类为主。

评分体系最终分成两条路径:

  • 39 道数值类题目(Value-based evaluation)

  • 11 道开放式题目(LLM-judge evaluation)

其中 39 道题属于数值类,模型必须在输出里清楚写出最终答案。解析器会自动抓取这个答案,并判断它和标准解是不是等价。哪怕写法不同,比如分数、根号、小数,也会先被统一处理,再做判断。

11 道开放式题目,则让评分模型对答案多轮评估,再通过投票决定最终结果。为了让体系更稳,团队还做了人工抽检,最终评分一致性高达 99.2%。

AMO-Bench 的答案类型涵盖数值、集合、表达式与描述性四类,解析器和 LLM 评分分别覆盖它们的验证需求。

图5. AMO-Bench 涵盖数值、集合、表达式与描述性四类答案,并提供相应的自动评分方式。

通过这套体系,AMO-Bench 在保留奥赛难度的同时,也让题库具备了可持续运行的能力。题目可以长期开放使用,而评分结果仍然可靠一致,为未来的大模型推理能力提供了一个稳定的刻度。

SOTA 在 AMO-Bench 的真实段位

AMO-Bench 最核心的意义,在于把我们习惯的那些动辄 90%+ 的高分重新拉回现实。为了看清模型在奥赛难度下真正处在什么水平,LongCat 团队在统一配置下评测了 27 个主流模型,包括开源、闭源,以及推理和通用两条路线。

3.1 SOTA 集体掉分

结果足够震撼:在 AMO-Bench 上,即便当前得分最高的 Kimi-K2-Thinking 也只有 56.0%,大多数模型仍徘徊在 30%–40% 甚至更低。这和它们在 AIME24/25 上普遍 90% 以上的成绩形成了鲜明反差。

整体格局大致呈现三层:

第一梯队由少数推理专用模型构成,其中开源的 Kimi-K2-Thinking 和闭源的 GPT-5-Thinking(High)分列前两名,整体得分在 50%–56% 区间;

第二梯队以开源推理模型为主,普遍能把成绩顶到 30%–40%;

通用大模型上一代推理模型则明显掉在后面。

▲ 图6. 主流模型在 AMO-Bench 上的表现(AVG@32)

这张榜单也再次说明:旧基准的“满分时代”已经无法拉开差距,而 AMO-Bench 一加入 Kimi 这种新模型,差距立刻变得清晰。

3.2 推理预算成分界

在 AMO-Bench 上,分数不再只是模型能力本身的体现,也取决于推理阶段的算力投入

高分模型的平均输出长度普遍在 3–5 万 token,而通用模型往往输出更短、分数也更低。更有意思的是,即使在同一系列内,谁能用更短的输出拿到更高分,谁就显得更高效。

图7. 模型性能与平均输出长度对比

换句话说,在奥赛级难度上,“愿不愿意多想一点”、“想得有没有效率”,已经成为区分模型的关键。

3.3 长链推理的努力曲线

如果只看不同模型之间的排名,我们很难判断机制本质。LongCat 团队又观察了同一模型在不同推理强度下的表现

结果非常一致:输出越长,分数越高,趋势接近一条对数线性关系。而且这种提升在 AMO-Bench 上比 AIME/MATH500 更明显。

图8. 不同推理 Effort 下的模型表现

这说明在这一难度区间,模型依然远未算到头,推理阶段投入更多计算,仍能稳定换回收益。

3.4 pass@k 暴露潜力

LongCat 团队进一步分析了 pass@k 指标(k 次尝试至少一次成功)。结果透露出一件很关键的事,顶级推理模型在单次作答只有 40%–50%但 pass@32 却能冲到 70%+

图9. 模型 Pass@K 指标变化

这意味着模型往往知道怎么做,却缺乏稳定性——一次尝试很容易在链中途滑出轨道。

这也说明模型并非完全不会做,而是缺少稳定性,为思维链优化、RL 训练、自检机制等后续方向留下了空间。

3.5 难度结构放大差异

AMO-Bench 之所以能把模型之间的差异拉开,并不是因为题更难而已,而是因为它的难度结构更能放大稳定性差异:

  • 长链推理

  • 多步变形

  • 错误在链上的快速累积

  • 是否具备自我检查能力

只要中间一步走偏,整个推导就会崩掉。这样的设计,让不同模型在推理效率、稳定性、容错能力上的差别都被放大成了可见的分数差距。

从前面的所有实验结果也能看出,AMO-Bench 已经不只是新的高难度题库,而是一个能让模型真实段位显形的刻度线。

结语:推理上限第一次被照亮

AMO-Bench 让我们重新看清一件事:数学推理的难度并没有被大模型攻克,只是过去的题太快被做完了。当基准回到奥赛级别,模型之间的梯度再次拉开,稳定性、链路深度、自检能力这些长期被满分时代掩盖的差异,都重新浮到了台面上。

更关键的是,它不是一次性的难题合集。凭借奥赛级原创题和自动评分闭环,AMO-Bench 把原本挤成一团的高分段重新拉回到了一个可区分、能进步的难度区间,让评测终于有了真正的上升空间。

从这个角度看,如今的 56.0% 并不是失败,而像是重新点亮了刻度尺上的下一段。

真正的推理上限,也许正是从这里开始变得清晰。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们