动态列表

    SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位

    原创 让你更懂AI的 2025-11-20 13:14 北京

    满分时代结束了

    过去两年,AIME 等数学基准几乎被主流大模型打到了 90% 以上。可当同一批模型面对 AMO-Bench 时,最高得分也只有 56.0%。

    这组反差让一个被忽略已久的疑问重新浮上台面:我们以为已经“很会做题”的模型,在真正的奥赛难度面前到底处于什么水平?

    图1. 顶级推理模型在 AMO-Bench 及多数学基准上的正确率对比,AMO-Bench 一栏整体显著下移。

    数学推理一直是检验大模型思维能力的关键场景。过去几年,从 GSM8K 到 MATH,再到 AIME,榜单上的成绩一路飙升,看上去大家都已经“做题如喝水”。

    但这种繁荣背后也埋下了隐忧:公开题库带来的数据穿越风险越来越难确认,部分任务的正确率甚至突破 90%,几乎没有区分度。

    就在行业逐渐适应这种“满分时代”时,美团 LongCat 团队发布了 AMO-Bench。它由 50 道竞赛专家原创题构成,难度对标甚至超过奥赛。

    结果非常直接:头部模型的最高成绩也只有 56.0%,而在整体 27 个模型里,大多数还徘徊在 40% 左右甚至更低。

    AMO-Bench 像是把刻度再次往后延了一段,让我们第一次清楚看到大模型真正的推理高度还远没有抵达尽头。

    论文地址:

    https://arxiv.org/abs/2510.26768

    项目主页:

    https://amo-bench.github.io/

    GitHub地址:

    https://github.com/meituan-longcat/AMO-Bench

    Hugging Face地址

    https://huggingface.co/datasets/meituan-longcat/AMO-Bench

    旧基准测不动了

    AIME、HMMT 曾经是数学推理评测的黄金舞台。每当一个新模型发布,人们第一反应往往不是跑分,而是看它在这些基准上能不能写出高水平解题链。那段时间里,这些榜单确实承担了“刻度尺”的角色。

    但随着近两年推理模型的能力快速跃升,情况开始发生变化。头部模型的正确率一路攀升,几乎都摸到了 90% 以上的区间。

    题库是公开的,模型在训练阶段是否已经接触过类似模式,也变得难以完全界定。成绩越高,这个问题越无法被忽视。

    另一边,IMO、USAMO 这样的奥赛级基准虽然难度足够,却以证明题为主,无法自动评分。评测成本极高,很难构成可持续的评测体系。

    多重因素叠加,整个行业迎来了一个尴尬节点:模型变得更强,能真正测出差距的任务却越来越少。大家都意识到刻度尺已经被顶到了尽头,但替代者始终没有出现。

    AMO-Bench 的底层设计

    当旧基准的刻度被不断压扁时,模型之间的差距已经难以再从这些题目里分辨出来。

    更麻烦的是,AIME/HMMT 已经不够难,IMO/USAMO 又无法自动评分,中间的“可评测高难度赛道”长期处于空缺。AMO-Bench 正是在这个缺口上落地的:难度够高,又能反复运行。

    AMO-Bench 的价值不只在于难度提升,更重要的是把奥赛级数学重新整理成了一套可以长期复用的评测体系。

    从命题、审查,到题型结构和自动评分,它都围绕着同一个问题展开:怎么把奥数难题变成可规模评测的标准材料,而不是一次性的竞赛题?

    图2:AMO-Bench 从命题、审查到评分的完整构建流程

    2.1 奥赛级原创题库

    AMO-Bench 的题库从一开始就选了最难的路:全部题目由具备奥数获奖或命题经验的专家独立设计。命题人熟悉竞赛体系,能确保每道题都具备扎实的数学结构和清晰的推理逻辑。

    更值得注意的是,每道题都附有人类专家完整的解题链路,不只给出最后答案,而是把从关键定理应用到每一步推导的路径都写出来。

    对模型来说,这条链路像是并行轨道:一旦回答跑偏,能快速对照出是在理解层面走错了,还是推理中途失手。

    2.2 三重审查定难度

    一套能长期使用的评测题库,要求远不止“难”这一条。题目得足够干净,逻辑要足够扎实,还不能被模型轻轻松松蒙对。所以在命题之后,每道题还要经历三轮审查。

    第一轮是专家盲审,确保题意是否清晰、解题过程是否严谨,避免存在语义歧义或逻辑漏洞。

    第二轮是原创性审查,通过 n-gram 匹配和网络检索,把可能与公开竞赛题库高度相似的题排除掉,降低“训练时见过类似题”的风险。

    第三轮则反过来请最强模型上场做题,如果某道题被多款模型轻松做对,就会被移出候选池。

    这一轮又一轮的筛选,实际起到的作用就是:把那些“看着像奥数题,但模型一试就秒杀”的题提前拦掉,只保留真正处在奥赛段位、甚至更高的题目。因此三重审查也是 AMO-Bench 难度稳定性的保证。

    2.3 五大方向与链长

    如果把 50 道题摊开来看,就会发现它们并不是随意堆出来的难题,而是严格按照数学奥赛的大纲划分为五大方向:代数、几何、数论、组合、函数与数列。这样的设计既拉开了方向,也能一眼看出模型在不同分支上的薄弱环节。

    图3. AMO-Bench 在代数、几何、数论、组合、函数/数列五大方向上的题目分布。

    比起题目本身,更能拉开模型差距的,是解题链的长度。

    LongCat 团队对比了 AMO-Bench、AIME 和 MATH500 的人类标准解,差异非常直观:AMO-Bench 的推理链更长,步骤更多,逻辑密度也明显更高。很多题不再是套个公式就结束,而是要沿着一条从头走到尾的完整推理路径,不容一步出错。

    这样的结构会持续放大模型的稳定性差异。只要中间一步判断错了,后面的推导几乎都会被带偏。

    图4. AMO-Bench 的人类标准解长度整体高于 AIME/MATH500,对长链推理稳定性要求更高。

    2.4 奥数难题自动评分

    要让奥赛这种级别的题真正落地,评分就是第一道坎。AMO-Bench 的做法,是在保证难度不缩水的前提下,让题目尽可能具备可验证的最终答案。因此题目形式以数值类为主。

    评分体系最终分成两条路径:

    • 39 道数值类题目(Value-based evaluation)

    • 11 道开放式题目(LLM-judge evaluation)

    其中 39 道题属于数值类,模型必须在输出里清楚写出最终答案。解析器会自动抓取这个答案,并判断它和标准解是不是等价。哪怕写法不同,比如分数、根号、小数,也会先被统一处理,再做判断。

    11 道开放式题目,则让评分模型对答案多轮评估,再通过投票决定最终结果。为了让体系更稳,团队还做了人工抽检,最终评分一致性高达 99.2%。

    AMO-Bench 的答案类型涵盖数值、集合、表达式与描述性四类,解析器和 LLM 评分分别覆盖它们的验证需求。

    图5. AMO-Bench 涵盖数值、集合、表达式与描述性四类答案,并提供相应的自动评分方式。

    通过这套体系,AMO-Bench 在保留奥赛难度的同时,也让题库具备了可持续运行的能力。题目可以长期开放使用,而评分结果仍然可靠一致,为未来的大模型推理能力提供了一个稳定的刻度。

    SOTA 在 AMO-Bench 的真实段位

    AMO-Bench 最核心的意义,在于把我们习惯的那些动辄 90%+ 的高分重新拉回现实。为了看清模型在奥赛难度下真正处在什么水平,LongCat 团队在统一配置下评测了 27 个主流模型,包括开源、闭源,以及推理和通用两条路线。

    3.1 SOTA 集体掉分

    结果足够震撼:在 AMO-Bench 上,即便当前得分最高的 Kimi-K2-Thinking 也只有 56.0%,大多数模型仍徘徊在 30%–40% 甚至更低。这和它们在 AIME24/25 上普遍 90% 以上的成绩形成了鲜明反差。

    整体格局大致呈现三层:

    第一梯队由少数推理专用模型构成,其中开源的 Kimi-K2-Thinking 和闭源的 GPT-5-Thinking(High)分列前两名,整体得分在 50%–56% 区间;

    第二梯队以开源推理模型为主,普遍能把成绩顶到 30%–40%;

    通用大模型上一代推理模型则明显掉在后面。

    ▲ 图6. 主流模型在 AMO-Bench 上的表现(AVG@32)

    这张榜单也再次说明:旧基准的“满分时代”已经无法拉开差距,而 AMO-Bench 一加入 Kimi 这种新模型,差距立刻变得清晰。

    3.2 推理预算成分界

    在 AMO-Bench 上,分数不再只是模型能力本身的体现,也取决于推理阶段的算力投入

    高分模型的平均输出长度普遍在 3–5 万 token,而通用模型往往输出更短、分数也更低。更有意思的是,即使在同一系列内,谁能用更短的输出拿到更高分,谁就显得更高效。

    图7. 模型性能与平均输出长度对比

    换句话说,在奥赛级难度上,“愿不愿意多想一点”、“想得有没有效率”,已经成为区分模型的关键。

    3.3 长链推理的努力曲线

    如果只看不同模型之间的排名,我们很难判断机制本质。LongCat 团队又观察了同一模型在不同推理强度下的表现

    结果非常一致:输出越长,分数越高,趋势接近一条对数线性关系。而且这种提升在 AMO-Bench 上比 AIME/MATH500 更明显。

    图8. 不同推理 Effort 下的模型表现

    这说明在这一难度区间,模型依然远未算到头,推理阶段投入更多计算,仍能稳定换回收益。

    3.4 pass@k 暴露潜力

    LongCat 团队进一步分析了 pass@k 指标(k 次尝试至少一次成功)。结果透露出一件很关键的事,顶级推理模型在单次作答只有 40%–50%但 pass@32 却能冲到 70%+

    图9. 模型 Pass@K 指标变化

    这意味着模型往往知道怎么做,却缺乏稳定性——一次尝试很容易在链中途滑出轨道。

    这也说明模型并非完全不会做,而是缺少稳定性,为思维链优化、RL 训练、自检机制等后续方向留下了空间。

    3.5 难度结构放大差异

    AMO-Bench 之所以能把模型之间的差异拉开,并不是因为题更难而已,而是因为它的难度结构更能放大稳定性差异:

    • 长链推理

    • 多步变形

    • 错误在链上的快速累积

    • 是否具备自我检查能力

    只要中间一步走偏,整个推导就会崩掉。这样的设计,让不同模型在推理效率、稳定性、容错能力上的差别都被放大成了可见的分数差距。

    从前面的所有实验结果也能看出,AMO-Bench 已经不只是新的高难度题库,而是一个能让模型真实段位显形的刻度线。

    结语:推理上限第一次被照亮

    AMO-Bench 让我们重新看清一件事:数学推理的难度并没有被大模型攻克,只是过去的题太快被做完了。当基准回到奥赛级别,模型之间的梯度再次拉开,稳定性、链路深度、自检能力这些长期被满分时代掩盖的差异,都重新浮到了台面上。

    更关键的是,它不是一次性的难题合集。凭借奥赛级原创题和自动评分闭环,AMO-Bench 把原本挤成一团的高分段重新拉回到了一个可区分、能进步的难度区间,让评测终于有了真正的上升空间。

    从这个角度看,如今的 56.0% 并不是失败,而像是重新点亮了刻度尺上的下一段。

    真正的推理上限,也许正是从这里开始变得清晰。

    🔍

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    ·

    阅读原文

    跳转微信打开

    联系我们