ToolsAi

原创让你更懂AI的 2025-09-03 13:12 北京

卷子靠背？别想蒙混过关！

前段时间由谷歌 Deepmind 组织的 AI 象棋大战万众瞩目，最终由出自 OpenAI 的 O3 夺冠。

事实上，用策略游戏的对战来评测大模型并不是第一次被提出，被 ACL 2025 接收的论文 GAMEBoT：Transparent Assessment of LLM Reasoning in Games 便采用了棋盘游戏、动作游戏、纸牌游戏、博弈论游戏来综合评估大模型的能力。

除了作为 LLM benchmark，GAMEBoT 还是一个不被污染的 LLM+RL 算法的验证平台。

论文链接：

https://arxiv.org/abs/2412.13602

项目主页：

https://visual-ai.github.io/gamebot/

代码链接：

https://github.com/Visual-AI/GAMEBoT

为什么要用游戏来评估？

传统的 Benchmark 具有这些问题：

数据污染风险：许多评测依赖静态数据集，模型可能通过“背题”而非真正推理来获得高分。
性能饱和：一些基准对于顶尖模型来说过于简单，难以有效区分它们之间的能力差异。

游戏评测则天然规避了这些问题。动态变化的游戏环境让模型无法靠记忆“背答案”，必须实时分析局势、制定策略。每一局都是全新的挑战，真正考验模型的临场推理能力。

同时游戏非常具有挑战性，即使是人类也需要花很多时间去学习，用游戏作为评测基准可以很好的推动当前的 LLM 往下一代人工智能 AGI 的方向发展。

GAMEBoT相比其他的游戏LLM benchmark有什么特点？

2.1 设计出发点的不同

尽管设计十分相似，都是用游戏来评估大模型的智能能力，但 GAMEBoT 的设计哲学和其他基于游戏的大模型 Benchmark 有一个很关键的不同，那就是对大模型的能力的要求的出发点不同。

举个例子，当我们用象棋来评测 LLM 时，我们真的是希望 LLM 象棋下的很厉害吗？

针对各种游戏实例，特定训练的 Reinforcement Learning 算法已经给出了很好的解法，如果仅仅是希望大模型能把对应的游戏玩好——显然应用的意义比较有限。

与之不同的是，GAMEBoT 设计的出发点并不是真的仅仅是希望 LLM 能玩好游戏，而希望大模型具备真正的-泛化性，即所谓的 Generalization。而对于泛化性，GAMEBoT 考察的便是大模型的学习能力。

假设各个待评测的 LLM 都是学生，GAMEBoT 在 Prompt 中提供了一个完整的对于该游戏的教程，当所有学生都看过这个教程，并基于对该教程的理解，让所有学生进入实战互相 PK，表现越好的学生则可以认为学习能力、理解能力更强，更加智能。

通过评估模型的学习能力来评估它的智商高低，更符合现实意义。设想一下，如果模型能通过简单的教程，简短的指令，就能自我演绎出背后的逻辑并掌握一项技能，那或许真的离 AGI 不远了。

2.2 大模型真的理解了游戏的规则和策略吗？

用游戏来评估大模型一个最直接的指标，就是游戏中的输赢或者最终得分，但是这种方式有一个问题：假如大模型在一局游戏中获得了胜利，是因为它真的理解了游戏的规则和策略吗？还是仅仅是因为运气？

例如，大语言模型可能会产生毫无逻辑的推理过程，却恰好选择了正确的行动，从而侥幸获胜。若仅以游戏结果作为性能评估标准，会削弱基准测试的有效性。

此外，仅评估最终输赢（实为多个独立决策的最终体现）会忽略游戏每一步决策中蕴含的丰富信息。因此，要全面评估大语言模型在战略环境中的能力，不仅要考察最终结果，更需要评估支撑每个行动的中间推理过程。

GAMEBoT 的核心设计之一，就在于它不仅看输赢结果，更同时评估模型的思考过程是否正确。这种方式对模型的表现提供了更强的可解释性。

GAMEBoT的具体设计

3.1 子问题分解

为了评估大模型的中间步骤是否合理，验证模型是否真的理解了游戏的逻辑，GAMEBoT 将每款游戏的决策过程分解为 2-3 个关键子问题，这些问题都被设计为有唯一的确定答案。例如在 Surround 游戏中，模型需依次回答：

1. 当前位置周围的值是多少？

2. 当前安全移动的方向有哪些？

3. 该方向能否保证至少十次安全移动？

模型被要求以 [中间思考结果：XXX] 的格式输出推理步骤，方便直接提取答案验证。同时，GAMEBoT 开发了基于规则的算法自动生成标准答案，实现高效客观的评估。

尽管这种设计的出发点是为了更好的评测 LLM 的能力，但同时也正好提供给了现在很多 RL 算法一个绝佳的测试算法有效性的平台。而不仅仅是局限在很容易被污染的数学评测上。

3.2 教程级提示设计

为确保模型展示的是真正的泛化学习能力和即时推理能力，而非依赖预训练知识。GAMEBoT 提供了结构化的提示模板，包含四部分完整说明：

<游戏规则>：详细说明游戏机制
<输入>：规范输入数据格式
<策略>：包含对游戏子问题的分解，以及游戏策略的建议。
<输出>：明确要求分步推理并输出结构化结果

3.3 包含的游戏

GAMEBoT 精心挑选了 8 款游戏，涵盖不同策略类型：

1. Surround（围堵游戏）：移动轨迹围堵对手，避免自撞

2. Pong（乒乓）：控制球拍回击球体

3. TicTacToe（井字棋）：经典三子连线

4. Connect4（四子棋）：垂直落子连成四线

5. Othello（黑白棋）：夹击翻转对手棋子

6. Texas Hold’em（德州扑克）：扑克牌策略博弈

7. Checkers（跳棋）：吃子攻防游戏

8. Negotiation v2（协商游戏）：分配物品获取最大价值

这些游戏从简单规则+深度策略到不完全信息博弈，全面考验模型的推理能力。

实验

4.1 实验结论

目前的大语言模型仍然难以进行复杂游戏推理，学习泛化能力仍然不够强。
大语言模型做出的决策远非最优。
基于游戏结果的评估与中间步骤评估之间存在高度相关性。

4.2 最新评估

在最新的评估中，GPT-5 成为最强大的推理模型，展现出一定的战略思维和决策能力。

4.2.1 Connect4

4.2.2 Checkers

4.3 可视化对决

附视频 Connect4

附视频 Checkers

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

Benchmark新试炼场！从棋盘到德扑全覆盖，GAMEBoT虐测大模型推理力

类别

资源

联系我们