动态列表

    Benchmark新试炼场!从棋盘到德扑全覆盖,GAMEBoT虐测大模型推理力

    原创 让你更懂AI的 2025-09-03 13:12 北京

    卷子靠背?别想蒙混过关!

    前段时间由谷歌 Deepmind 组织的 AI 象棋大战万众瞩目,最终由出自 OpenAI 的 O3 夺冠。

    事实上,用策略游戏的对战来评测大模型并不是第一次被提出,被 ACL 2025 接收的论文 GAMEBoT:Transparent Assessment of LLM Reasoning in Games 便采用了棋盘游戏、动作游戏、纸牌游戏、博弈论游戏来综合评估大模型的能力。

    除了作为 LLM benchmark,GAMEBoT 还是一个不被污染的 LLM+RL 算法的验证平台

    论文链接:

    https://arxiv.org/abs/2412.13602

    项目主页:

    https://visual-ai.github.io/gamebot/

    代码链接:

    https://github.com/Visual-AI/GAMEBoT

    为什么要用游戏来评估?

    传统的 Benchmark 具有这些问题:

    • 数据污染风险:许多评测依赖静态数据集,模型可能通过“背题”而非真正推理来获得高分。

    • 性能饱和: 一些基准对于顶尖模型来说过于简单,难以有效区分它们之间的能力差异。

    游戏评测则天然规避了这些问题。动态变化的游戏环境让模型无法靠记忆“背答案”,必须实时分析局势、制定策略。每一局都是全新的挑战,真正考验模型的临场推理能力。

    同时游戏非常具有挑战性,即使是人类也需要花很多时间去学习,用游戏作为评测基准可以很好的推动当前的 LLM 往下一代人工智能 AGI 的方向发展。

    GAMEBoT相比其他的游戏LLM benchmark有什么特点?

    2.1 设计出发点的不同

    尽管设计十分相似,都是用游戏来评估大模型的智能能力,但 GAMEBoT 的设计哲学和其他基于游戏的大模型 Benchmark 有一个很关键的不同,那就是对大模型的能力的要求的出发点不同。

    举个例子,当我们用象棋来评测 LLM 时,我们真的是希望 LLM 象棋下的很厉害吗?

    针对各种游戏实例,特定训练的 Reinforcement Learning 算法已经给出了很好的解法,如果仅仅是希望大模型能把对应的游戏玩好——显然应用的意义比较有限。

    与之不同的是,GAMEBoT 设计的出发点并不是真的仅仅是希望 LLM 能玩好游戏,而希望大模型具备真正的-泛化性,即所谓的 Generalization。而对于泛化性,GAMEBoT 考察的便是大模型的学习能力。

    假设各个待评测的 LLM 都是学生,GAMEBoT 在 Prompt 中提供了一个完整的对于该游戏的教程,当所有学生都看过这个教程,并基于对该教程的理解,让所有学生进入实战互相 PK,表现越好的学生则可以认为学习能力、理解能力更强,更加智能。

    通过评估模型的学习能力来评估它的智商高低,更符合现实意义。设想一下,如果模型能通过简单的教程,简短的指令,就能自我演绎出背后的逻辑并掌握一项技能,那或许真的离 AGI 不远了。

    2.2 大模型真的理解了游戏的规则和策略吗?

    用游戏来评估大模型一个最直接的指标,就是游戏中的输赢或者最终得分,但是这种方式有一个问题:假如大模型在一局游戏中获得了胜利,是因为它真的理解了游戏的规则和策略吗?还是仅仅是因为运气?

    例如,大语言模型可能会产生毫无逻辑的推理过程,却恰好选择了正确的行动,从而侥幸获胜。若仅以游戏结果作为性能评估标准,会削弱基准测试的有效性。

    此外,仅评估最终输赢(实为多个独立决策的最终体现)会忽略游戏每一步决策中蕴含的丰富信息。因此,要全面评估大语言模型在战略环境中的能力,不仅要考察最终结果,更需要评估支撑每个行动的中间推理过程。

    GAMEBoT 的核心设计之一,就在于它不仅看输赢结果,更同时评估模型的思考过程是否正确。这种方式对模型的表现提供了更强的可解释性。

    GAMEBoT的具体设计

    3.1 子问题分解

    为了评估大模型的中间步骤是否合理,验证模型是否真的理解了游戏的逻辑,GAMEBoT 将每款游戏的决策过程分解为 2-3 个关键子问题,这些问题都被设计为有唯一的确定答案。例如在 Surround 游戏中,模型需依次回答:

    1. 当前位置周围的值是多少?

    2. 当前安全移动的方向有哪些?

    3. 该方向能否保证至少十次安全移动?

    模型被要求以 [中间思考结果:XXX] 的格式输出推理步骤,方便直接提取答案验证。同时,GAMEBoT 开发了基于规则的算法自动生成标准答案,实现高效客观的评估。

    尽管这种设计的出发点是为了更好的评测 LLM 的能力,但同时也正好提供给了现在很多 RL 算法一个绝佳的测试算法有效性的平台。而不仅仅是局限在很容易被污染的数学评测上

    3.2 教程级提示设计

    为确保模型展示的是真正的泛化学习能力和即时推理能力,而非依赖预训练知识。GAMEBoT 提供了结构化的提示模板,包含四部分完整说明:

    • <游戏规则>:详细说明游戏机制

    • <输入>:规范输入数据格式

    • <策略>:包含对游戏子问题的分解,以及游戏策略的建议。

    • <输出>:明确要求分步推理并输出结构化结果

    3.3 包含的游戏

    GAMEBoT 精心挑选了 8 款游戏,涵盖不同策略类型:

    1. Surround(围堵游戏):移动轨迹围堵对手,避免自撞

    2. Pong(乒乓):控制球拍回击球体

    3. TicTacToe(井字棋):经典三子连线

    4. Connect4(四子棋):垂直落子连成四线

    5. Othello(黑白棋):夹击翻转对手棋子

    6. Texas Hold’em(德州扑克):扑克牌策略博弈

    7. Checkers(跳棋):吃子攻防游戏

    8. Negotiation v2(协商游戏):分配物品获取最大价值

    这些游戏从简单规则+深度策略到不完全信息博弈,全面考验模型的推理能力。

    实验

    4.1 实验结论

    • 目前的大语言模型仍然难以进行复杂游戏推理,学习泛化能力仍然不够强。

    • 大语言模型做出的决策远非最优。

    • 基于游戏结果的评估与中间步骤评估之间存在高度相关性。

    4.2 最新评估

    在最新的评估中,GPT-5 成为最强大的推理模型,展现出一定的战略思维和决策能力。

    4.2.1 Connect4

    4.2.2 Checkers

    4.3 可视化对决

    附视频 Connect4

    附视频 Checkers

    更多阅读

    #投 稿 通 道#

    让你的文字被更多人看到

    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

    📝 稿件基本要求:

    • 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

    • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

    • PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

    📬 投稿通道:

    • 投稿邮箱:hr@paperweekly.site

    • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

    • 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

    △长按添加PaperWeekly小编

    🔍

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧

    ·

    阅读原文

    跳转微信打开

    联系我们