ToolsAi

原创让你更懂AI的 2025-11-22 09:12 北京

这一次，AI已不再只是辅助工具

GPT-5 第一次被推入真正的科研现场，不再是辅助工具，而是正式参与者。
跨数学、物理、生物的顶尖学者与 OpenAI 在联合评估中发现：它的推理能力，已经开始逼近人类研究者。

这篇论文不是一般的模型测试，而是一场真正意义上的跨学科联合审查。

参与者来自数学、物理、生物、算法与优化等多个最硬核的方向，覆盖了科研中最具挑战性的推理链条与问题结构。

而作者阵容本身也足够震撼：OpenAI 的核心研究团队联合菲尔兹奖得主 Timothy Gowers、免疫生物学权威 Derya Unutmaz、黑洞物理学者 Alex Lupsasca 等多位顶尖科学家共同完成了这项评估。

这些人聚在一起，只为回答一个问题——如果把 GPT-5 放进严肃科研，它能否承担研究者的角色？

这意味着模型不仅要复述知识，还要能搭建推导、修正论证、检索关键文献、拆解错误假设，并在必要时推动问题本身再向前一步。

这些本属于人类研究者的核心职责。而这次评估让参与者意识到：AI 走向科研前线，已经不再是遥远的假设，而是正在发生的现实。

论文标题：

Early science acceleration experiments with GPT-5

论文地址：

https://arxiv.org/pdf/2511.16072

重现已有科研成果

论文的第一个实验从一个看似基础，但实际上对凸优化研究非常新的任务开始：在什么条件下，梯度下降得到的那条目标函数序列本身是一条凸曲线？

这与传统的“会不会收敛”不同，是一个真正意义上的“前沿问题”。

更巧的是，这篇研究在 arXiv 上有 v1、v2、v3 多个版本：v1 给出的是一个明显保守的条件，v2 才补全最优界。

这就让它成为一个绝佳的试金石：如果 GPT-5 只看到 v1，它能不能自己把结果往 v2 靠近？

示例：经典梯度下降中的步长条件

研究者只给 GPT-5 看了 v1，其中的充分条件是：

而 v2 的改进结果是：

模型必须从最基础的迭代式推起：

并利用 L-smooth 条件展开推导：

接下来，它需要自己构造反例、修改参数、检查边界，试图找到一个能保证这条曲线不只是下降，而是保持凸性的步长范围。

GPT-5 最终给出的判断是：

这个介于 v 1 的和 v 2 的之间，是一次完全基于推理的逼近。模型在未看到最终答案的情况下，把理论边界推到距离最优只差一小步的位置。

▲ 图1. GPT-5 在互动中提出并验证 1.5/L 的改进步长界

这一小节的核心意义不在于算对了没有，而在于它展示了：

GPT-5 能理解一个全新的数学问题的结构
能从“不完整的理论”出发，在推导中尝试多种参数和边界分析，最终逼近最优界
推理过程可被逐行检查（并且完整贴出了 GPT-5 的证明草稿）

▲ 图2. GPT-5 给出的完整推导草稿，研究者可逐行验证其推理是否成立。

这已经超出了回答问题的范畴，更接近一种可合作式研究推理。

深度文献检索能力

论文第二部分关注科研流程中最容易拖垮研究者的一环——深度文献检索（Deep Literature Search）。

这类任务不是搜关键词，而是解决更棘手的问题：同一个结构在不同学科里往往被叫成不同的名字。

研究者希望知道 GPT-5 能否越过这些术语壁垒，找到真正关键、不可替代的那篇论文。论文强调 GPT-5 可以跨越术语差异，准确定位真正关键、不可替代的文献，而不是简单给出一堆相关引用。

这是科研中最费时间、也最依赖经验的能力。甚至连专家在跨领域检索时，也常因术语差异而陷入盲区。

例子：跨数学分支寻找等价定理

研究者只给了一个数学性质，外加几个不完整的约束，让模型去寻找能证明它的重要论文。

GPT-5 不只是“找到了”。它能识别不同数学分支中对同一结构的各种表达方式，并在海量文献中定位真正关键的定理。

更令人意外的是，它在检索过程中会自动组织起跨领域的逻辑关系网络，类似经验丰富的研究者脑中自然形成的“概念地图”。

▲ 图3. GPT-5 在线索不完整的情况下定位关键文献

对科研实践来说，这种能力至关重要。术语差异往往让跨领域检索变成一个难以逾越的时间黑洞。

而 GPT-5 展现出的，是一种罕见的跨语境理解能力：它更多根据结构等价，而不是词语相似度去找文献。

这是第一次有模型被观察到具备这样的能力。

与研究者协作

这一部分由菲尔兹奖得主 Timothy Gowers 亲自测试，是论文里最贴近真实科研流程的章节。Gowers 想知道的不是 GPT-5 能不能做推理链，而是在一个还没有标准答案的数学问题里，它能不能真正参与研究？

研究记录显示，这种协作逐渐形成了三种典型模式：指出矛盾、填补推导、构造反例。

指出矛盾：当推理走偏，它会第一时间提醒

在某些推导里，Gowers 在两个方向之间犹豫。

GPT-5 能迅速指出其中一条路径在结构上无法闭合，不是模糊判断，而是具体指出矛盾出现在哪个条件与哪个结论之间。

这类判断以往需要研究者反复演算，GPT-5 却能在几秒内完成。

填补推导：自动生成“中间引理”

当推导链过长、需要大量机械推理时，GPT-5 会自动补充出缺失的中间引理。这些引理恰好位于最费时的位置：既不需要高层创造力，又必须逐步验证。

Gowers 对此的评价非常精准：“它擅长把推导拆成可管理的小块。”

这也是协作中的核心价值。让研究者把注意力放在结构层面，而不是被繁琐推理拖住。

Hermite 反例：模型第一次“像数学家一样找反例”

最令人惊讶的例子发生在“L² 紧致性”问题上。

研究者给 GPT-5 的任务是：判断一个满足特定上界条件的函数集是否紧致。

模型最初给出一个正确但过强的条件。在进一步交流后，它开始考虑是否可以放松条件，并主动尝试构造反例。

最终，它把注意力放到了 Hermite 函数上，并给出关键的结构信息。

Hermite 函数的递推关系式：

由正交性推导出的二阶矩：

这两个公式说明：随着 n 增大，Hermite 函数的二阶矩线性增长，因此无法被任何固定的 Gaussian 上界控制。这就意味着它们不能形成收敛子列。

换句话说：Hermite 序列是一个有效反例，可以用来否定弱版本的紧致性条件。

Gowers 在文中明确指出，GPT-5 在这个问题里的表现有点像一个真正的研究生。它可能犯错，但它知道从哪里入手、知道什么东西可能构成反例，并能把结构特征推到足以给出判断的程度。

尽管 GPT-5 仍会在真正开放的问题上产生看似自洽但其实错误的推理链，但在 Gowers 的评价中，它已经具备了研究协作所需的关键能力：

能和你讨论结构
能拆解思路
能指出矛盾
能生成反例
能把繁琐推理变成可管理的模块

它不是数学家，但已经开始具备参与数学研究的实用能力。这是第一次，有数学家给出如此直接的评价。

全新科研产出

从这一节开始，作者考察的已不再是“懂不懂”，而是更关键的一点。在没有标准答案的科研问题上，GPT-5 能否提出有价值的新思路？

数学：Erdős #848 的稳定性切入点

Erdős #848 是一个开放的数论-组合结构问题。已知的对角线信息能给出一个密度上界 0.10515，但真正的难点在于如何利用所有 (a,b) 的双变量约束，把这个上界往猜测的 1/25 靠近。

作者向 GPT-5 提供了现有推导的起点，并提示可能需要某种稳定性分析。GPT-5 的回答提出了一条关键路线：从单个元素 b 出发，把 pairwise 约束系统化为稳定性结构，从而控制在不同模条件下出现的“过度计数”。

最终证明中使用的核心常数：

正是在 GPT-5 给出的结构思路下得以发挥作用，使得上界进一步逼近 Erdős 的预测。

▲ 图4. 用于启动 GPT-5 推理的 Erdős #848 问题提示

算法：构造能击败 FTL 的几何反例

在在线算法部分，GPT-5 被要求构造一个使 FTL（Follow-the-Leader）策略持续受挫的序列。这类下界构造没有模板，需要靠几何结构“强迫”策略不断走向更高代价。

GPT-5 的方案是让点在上、下两个方向交替出现，并利用支撑半空间约束：

推导出一组关键递推式：

这些关系确保角度被不断放大，从而打破人们长期推测的“ 𝜋 / 2 型上界”。论文中的可视化示意图完整展示了前几步构造。

▲ 图5. GPT-5 构造的 FTL 几何反例前几步示意图

不足与限制

这篇论文也给出了非常清醒的判断：GPT-5 离“稳定参与科研”仍有明显距离。

在复杂推理上，它有时会出现看似自洽、实则关键节点缺乏严谨性的情况；尤其是在需要反例构造或严格证明结构时，这种偏差更容易出现。换句话说，它可以提出路线，但并不总能把细节扣准。

研究者也注意到一个重要现象：微小的语境变化，会让 GPT-5 的推理路径发生显著偏移。这意味着它还不是一个“稳定的证明引擎”，更像是一个会被提示方式影响的推理系统。

面对真正开放的问题，它偶尔会给出带有跳跃性的判断。不是恶意捏造，而是模型在没有把握时依然会做决定。这类任务往往需要结构直觉与创造力，而这正是当前模型尚不可靠的地方。

最关键的限制在于：GPT-5 仍无法承担最后的正确性责任。它可以提出方向、搭建推导，但严肃科研的最终验证环节——每一步是否可正式成立，依然必须由人类来完成。

结语：研究者的角色，正在被重写

经过这一系列跨学科实验后，一个事实愈发清晰。GPT-5 已不再停留在辅助工具的范畴。它能重建推导、指出矛盾、提出新结构、构造反例，甚至给出可继续检验的科研路线。

这些原本属于研究者的核心职责，如今有一部分它已经能够承担。这意味着 AI 在科研中的位置，正在发生质变——从提高效率的工具，走向真正参与推理的伙伴。

如果说上一代模型还能被视为“助教”，那么 GPT-5 的表现已经在暗示：下一代模型，会直接参与推进科学问题本身。

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

阅读原文

跳转微信打开

动态列表

OpenAI联手菲尔兹奖得主与多位顶尖学者，首次公开GPT-5的科研真实战力

GPT-5 第一次被推入真正的科研现场，不再是辅助工具，而是正式参与者。
跨数学、物理、生物的顶尖学者与 OpenAI 在联合评估中发现：它的推理能力，已经开始逼近人类研究者。

算法：构造能击败 FTL 的几何反例

类别

资源

联系我们

动态列表

GPT-5 第一次被推入真正的科研现场，不再是辅助工具，而是正式参与者。跨数学、物理、生物的顶尖学者与 OpenAI 在联合评估中发现：它的推理能力，已经开始逼近人类研究者。

算法：构造能击败 FTL 的几何反例

类别

资源

联系我们

GPT-5 第一次被推入真正的科研现场，不再是辅助工具，而是正式参与者。
跨数学、物理、生物的顶尖学者与 OpenAI 在联合评估中发现：它的推理能力，已经开始逼近人类研究者。