动态列表

  • 比互联网泡沫惨17倍!AI裁员潮上万科学家下一站在哪里?
  • 300只狗试用延寿药,「寿命曼哈顿计划」启动!
  • 谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题
  • NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA
  • MIT经济学博士生,用AI骗过了诺奖导师、Nature、美国国会
  • 2025 IDEA大会沈向洋提出智能演进的五个维度:机会不仅来自技术本身
  • 基础架构的新探索:清华提出Step by Step Network
  • 罗永浩:当年如果不做 TNT,锤子科技有可能多撑几年;灵光上线 4 天下载突破 100 万;谷歌 AI 搜索出现赞助广告
  • AI半天顶博士6个月,奥特曼太激动!生化圈巨震
  • 别再问什么工作被AI取代!Karpathy直指本质:你的工作「可验证」吗?
  • Karpathy最新发文:醒醒!别把AI当人看,它没欲望也不怕死
  • 马斯克想要「杀死」氛围编程,就像FSD搞定自动驾驶
  • 硅谷今夜笑疯!马斯克自黑「傻胖子」,只因Grok硬捧他打赢泰森
  • 2025宝山·智能机器人产业大会暨嘉年华隆重开幕
  • 解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT
  • Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏
  • DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
  • 把具身机器人开发变简单,地瓜机器人S600与一站式平台双擎亮相
  • Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
  • 华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用
  • 腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
  • NeurIPS 2025 | MIT新研究:数据集蒸馏迎来“线性时代”,一张图顶半个ImageNet?
  • ICML 2025 | 联邦学习的“平衡艺术”:FedCEO破解隐私与效用的权衡困局
  • 美团宣布在全国建设「骑手公寓」;2026 款苹果 iPad Air 曝光;月之暗面被曝计划明年下半年 IPO
  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 北京内推 | 小红书审核基础算法团队招聘增量预训练/RL/推理方向算法实习生
  • ICLR 2026吃瓜大赏:论文区在卷,审稿区在演,比春晚还热闹的五大名场面
  • AI离“可靠记忆”还有多远?HaluMem首次把记忆系统幻觉拆到操作级
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道

OpenAI联手菲尔兹奖得主与多位顶尖学者,首次公开GPT-5的科研真实战力

原创 让你更懂AI的 2025-11-22 09:12 北京

这一次,AI已不再只是辅助工具

GPT-5 第一次被推入真正的科研现场,不再是辅助工具,而是正式参与者。

跨数学、物理、生物的顶尖学者与 OpenAI 在联合评估中发现:它的推理能力,已经开始逼近人类研究者。

这篇论文不是一般的模型测试,而是一场真正意义上的跨学科联合审查。

参与者来自数学、物理、生物、算法与优化等多个最硬核的方向,覆盖了科研中最具挑战性的推理链条与问题结构。

而作者阵容本身也足够震撼:OpenAI 的核心研究团队联合菲尔兹奖得主 Timothy Gowers、免疫生物学权威 Derya Unutmaz、黑洞物理学者 Alex Lupsasca 等多位顶尖科学家共同完成了这项评估。

这些人聚在一起,只为回答一个问题——如果把 GPT-5 放进严肃科研,它能否承担研究者的角色?

这意味着模型不仅要复述知识,还要能搭建推导、修正论证、检索关键文献、拆解错误假设,并在必要时推动问题本身再向前一步。

这些本属于人类研究者的核心职责。而这次评估让参与者意识到:AI 走向科研前线,已经不再是遥远的假设,而是正在发生的现实。

论文标题:

Early science acceleration experiments with GPT-5

论文地址:

https://arxiv.org/pdf/2511.16072

重现已有科研成果

论文的第一个实验从一个看似基础,但实际上对凸优化研究非常新的任务开始:在什么条件下,梯度下降得到的那条目标函数序列 本身是一条凸曲线

这与传统的“会不会收敛”不同,是一个真正意义上的“前沿问题”。

更巧的是,这篇研究在 arXiv 上有 v1、v2、v3 多个版本:v1 给出的是一个明显保守的条件,v2 才补全最优界。

这就让它成为一个绝佳的试金石:如果 GPT-5 只看到 v1,它能不能自己把结果往 v2 靠近?

示例:经典梯度下降中的步长条件

研究者只给 GPT-5 看了 v1,其中的充分条件是:

而 v2 的改进结果是:

模型必须从最基础的迭代式推起:

并利用 L-smooth 条件展开推导:

接下来,它需要自己构造反例、修改参数、检查边界,试图找到一个能保证 这条曲线不只是下降,而是保持凸性的步长范围。

GPT-5 最终给出的判断是:

这个 介于 v 1 的 和 v 2 的 之间,是一次完全基于推理的逼近。模型在未看到最终答案的情况下,把理论边界推到距离最优只差一小步的位置。

▲ 图1. GPT-5 在互动中提出并验证 1.5/L 的改进步长界

这一小节的核心意义不在于算对了没有,而在于它展示了:

  • GPT-5 能理解一个全新的数学问题的结构

  • 能从“不完整的理论”出发,在推导中尝试多种参数和边界分析,最终逼近最优界

  • 推理过程可被逐行检查(并且完整贴出了 GPT-5 的证明草稿)

▲ 图2. GPT-5 给出的完整推导草稿,研究者可逐行验证其推理是否成立。

这已经超出了回答问题的范畴,更接近一种可合作式研究推理

深度文献检索能力

论文第二部分关注科研流程中最容易拖垮研究者的一环——深度文献检索(Deep Literature Search)

这类任务不是搜关键词,而是解决更棘手的问题:同一个结构在不同学科里往往被叫成不同的名字。

研究者希望知道 GPT-5 能否越过这些术语壁垒,找到真正关键、不可替代的那篇论文。论文强调 GPT-5 可以跨越术语差异,准确定位真正关键、不可替代的文献,而不是简单给出一堆相关引用。

这是科研中最费时间、也最依赖经验的能力。甚至连专家在跨领域检索时,也常因术语差异而陷入盲区。

例子:跨数学分支寻找等价定理

研究者只给了一个数学性质,外加几个不完整的约束,让模型去寻找能证明它的重要论文。

GPT-5 不只是“找到了”。它能识别不同数学分支中对同一结构的各种表达方式,并在海量文献中定位真正关键的定理。

更令人意外的是,它在检索过程中会自动组织起跨领域的逻辑关系网络,类似经验丰富的研究者脑中自然形成的“概念地图”。

▲ 图3. GPT-5 在线索不完整的情况下定位关键文献

对科研实践来说,这种能力至关重要。术语差异往往让跨领域检索变成一个难以逾越的时间黑洞。

而 GPT-5 展现出的,是一种罕见的跨语境理解能力:它更多根据结构等价,而不是词语相似度去找文献。

这是第一次有模型被观察到具备这样的能力。

与研究者协作

这一部分由菲尔兹奖得主 Timothy Gowers 亲自测试,是论文里最贴近真实科研流程的章节。Gowers 想知道的不是 GPT-5 能不能做推理链,而是在一个还没有标准答案的数学问题里,它能不能真正参与研究?

研究记录显示,这种协作逐渐形成了三种典型模式:指出矛盾、填补推导、构造反例。

指出矛盾:当推理走偏,它会第一时间提醒

在某些推导里,Gowers 在两个方向之间犹豫。

GPT-5 能迅速指出其中一条路径在结构上无法闭合,不是模糊判断,而是具体指出矛盾出现在哪个条件与哪个结论之间。

这类判断以往需要研究者反复演算,GPT-5 却能在几秒内完成。

填补推导:自动生成“中间引理”

当推导链过长、需要大量机械推理时,GPT-5 会自动补充出缺失的中间引理。这些引理恰好位于最费时的位置:既不需要高层创造力,又必须逐步验证。

Gowers 对此的评价非常精准:“它擅长把推导拆成可管理的小块。”

这也是协作中的核心价值。让研究者把注意力放在结构层面,而不是被繁琐推理拖住。

Hermite 反例:模型第一次“像数学家一样找反例”

最令人惊讶的例子发生在“L² 紧致性”问题上。

研究者给 GPT-5 的任务是:判断一个满足特定上界条件的函数集是否紧致。

模型最初给出一个正确但过强的条件。在进一步交流后,它开始考虑是否可以放松条件,并主动尝试构造反例。

最终,它把注意力放到了 Hermite 函数上,并给出关键的结构信息。

Hermite 函数的递推关系式:

由正交性推导出的二阶矩:

这两个公式说明:随着 n 增大,Hermite 函数的二阶矩线性增长,因此无法被任何固定的 Gaussian 上界控制。这就意味着它们不能形成收敛子列

换句话说:Hermite 序列是一个有效反例,可以用来否定弱版本的紧致性条件。

Gowers 在文中明确指出,GPT-5 在这个问题里的表现有点像一个真正的研究生。它可能犯错,但它知道从哪里入手、知道什么东西可能构成反例,并能把结构特征推到足以给出判断的程度。

尽管 GPT-5 仍会在真正开放的问题上产生看似自洽但其实错误的推理链,但在 Gowers 的评价中,它已经具备了研究协作所需的关键能力:

  • 能和你讨论结构

  • 能拆解思路

  • 能指出矛盾

  • 能生成反例

  • 能把繁琐推理变成可管理的模块

它不是数学家,但已经开始具备参与数学研究的实用能力。这是第一次,有数学家给出如此直接的评价。

全新科研产出

从这一节开始,作者考察的已不再是“懂不懂”,而是更关键的一点。在没有标准答案的科研问题上,GPT-5 能否提出有价值的新思路?

数学:Erdős #848 的稳定性切入点

Erdős #848 是一个开放的数论-组合结构问题。已知的对角线信息能给出一个密度上界 0.10515,但真正的难点在于如何利用所有 (a,b) 的双变量约束,把这个上界往猜测的 1/25 靠近。

作者向 GPT-5 提供了现有推导的起点,并提示可能需要某种稳定性分析。GPT-5 的回答提出了一条关键路线:从单个元素 b 出发,把 pairwise 约束系统化为稳定性结构,从而控制在不同模条件下出现的“过度计数”。

最终证明中使用的核心常数:

正是在 GPT-5 给出的结构思路下得以发挥作用,使得上界进一步逼近 Erdős 的预测。

▲ 图4. 用于启动 GPT-5 推理的 Erdős #848 问题提示

算法:构造能击败 FTL 的几何反例

在在线算法部分,GPT-5 被要求构造一个使 FTL(Follow-the-Leader)策略持续受挫的序列。这类下界构造没有模板,需要靠几何结构“强迫”策略不断走向更高代价。

GPT-5 的方案是让点在上、下两个方向交替出现,并利用支撑半空间约束:

推导出一组关键递推式:

这些关系确保角度被不断放大,从而打破人们长期推测的“ 𝜋 / 2 型上界”。论文中的可视化示意图完整展示了前几步构造。

▲ 图5. GPT-5 构造的 FTL 几何反例前几步示意图

不足与限制

这篇论文也给出了非常清醒的判断:GPT-5 离“稳定参与科研”仍有明显距离。

在复杂推理上,它有时会出现看似自洽、实则关键节点缺乏严谨性的情况;尤其是在需要反例构造或严格证明结构时,这种偏差更容易出现。换句话说,它可以提出路线,但并不总能把细节扣准。

研究者也注意到一个重要现象:微小的语境变化,会让 GPT-5 的推理路径发生显著偏移。这意味着它还不是一个“稳定的证明引擎”,更像是一个会被提示方式影响的推理系统。

面对真正开放的问题,它偶尔会给出带有跳跃性的判断。不是恶意捏造,而是模型在没有把握时依然会做决定。这类任务往往需要结构直觉与创造力,而这正是当前模型尚不可靠的地方。

最关键的限制在于:GPT-5 仍无法承担最后的正确性责任。它可以提出方向、搭建推导,但严肃科研的最终验证环节——每一步是否可正式成立,依然必须由人类来完成。

结语:研究者的角色,正在被重写

经过这一系列跨学科实验后,一个事实愈发清晰。GPT-5 已不再停留在辅助工具的范畴。它能重建推导、指出矛盾、提出新结构、构造反例,甚至给出可继续检验的科研路线。

这些原本属于研究者的核心职责,如今有一部分它已经能够承担。这意味着 AI 在科研中的位置,正在发生质变——从提高效率的工具,走向真正参与推理的伙伴。

如果说上一代模型还能被视为“助教”,那么 GPT-5 的表现已经在暗示:下一代模型,会直接参与推进科学问题本身。

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们