动态列表

  • 77岁「AI教父」Hinton:AI早有意识!我们打造的智能,可能终结人类文明
  • 全球首款1.8nm芯片亮相!华人CEO打响关键一战,英特尔杀回来了
  • 清华万引教授:万倍加速催化剂设计,AI突破DFT瓶颈!
  • 陶哲轩亲测!GPT-5 Pro 40分钟破解3年难题,登顶最难数学考试
  • 刚刚,Meta风雨飘摇中发了篇重量级论文,作者几乎全是华人
  • Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上
  • NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!
  • OpenAI 卖货做视频,Anthropic 专心写代码,谁能赢?
  • 一颗 1.8 纳米芯片,成了英特尔「最后的救赎」
  • 这款 AI 调研神器,让我一键产生 1000 个「种子用户」|AI 上新
  • 都用 GPT,为什么你没法中「百万大奖」?
  • ChatGPT 变身 App Store,「对话即应用」时代到了
  • IROS 2025 Oral | RAG-6Dpose:三大创新模块,利用 CAD 作为知识库进行检索增强 6D 姿态估计
  • IROS 2025 | 速度飙升24倍!巴黎萨克雷大学等提出HARP-NeXt:实时3D激光雷达分割新标杆
  • 「丐中丐」版特斯拉来了,Model 3/Y降价超3.5万元
  • 高德扫街榜的 23 天奇袭
  • 张一鸣近年来首次公开亮相;微软上海开始新一轮裁员,补偿N+4;罗永浩锐评 iPhone 17
  • GPT-5王者归来?奥特曼称AI已跨科学门槛,三大学科正迎来实质性突破
  • 老黄押宝「美版DeepSeek」!谷歌天才叛将创业,一夜吸金20亿美元
  • 任意Agent皆可强化学习!微软推出Agent Lightning框架,无需修改任何代码
  • 13万被引!ImageNet作者苏昊或将加盟复旦
  • 250份文档投毒,一举攻陷万亿LLM!Anthropic新作紧急预警
  • 和两位 CEO 聊 Sora: 应用层爆发的里程碑事件,创业者的机会来了
  • 新一代短剧人,涌向郑州「淘金」
  • 社交媒体的黄金时代,结束了
  • U-Bench:U-Net十年“大乱斗”终结者,100个变体、28个数据集的终极对决
  • 东京大学、牛津大学等联合发布VLA万字综述:机器人迈向通用智能的全栈指南
  • DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了
  • EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
  • 北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
  • Sora 下载量破 100 万次;国庆中秋假期国内游总花费超过 8000 亿元;智驾多位核心高管离职,蔚来回应|极客早知道
  • 谷歌杀入诺奖神殿,两年三冠五得主!世界TOP3重现贝尔实验室神话
  • OpenAI×英伟达,可能创造了人类史上最大万亿级泡沫
  • H-1B正在筛掉「下一个英伟达」?
  • 全球AI视频大战升级!「中国版Sora」Vidu Q2参考生月底发布,能力对标Sora 2
  • 第二代InfLLM开源,同尺寸快三倍!零参数,可训练稀疏注意力
  • 稳住训练、跑出泛化:STAGE重写「自回归图像生成」的强化学习范式
  • 腾讯推出TRM:让大模型像人类一样批判性思考,从文本依赖到事实正确
  • 马毅团队重磅发布新书:从MCR²到白盒Transformer,重构深度学习的第一性原理
  • 北大等提出TrackVLA++:赋予机器人推理与记忆,跟踪成功率飙升12%
  • Diffusion²来袭:威斯康星大学&华盛顿大学等提出双扩散模型,“回溯历史-预测未来”,破解自动驾驶“鬼探头”难题
  • 把我的第一次日本旅行,完全交给 AI 是什么体验?
  • 英伟达将投资马斯克的 xAI;低价版Model 3/Y 「阉割」智驾功能;微信推出批量撤回信息功能
  • 刚刚,清华物理传奇Yao Shunyu,跳槽谷歌DeepMind!
  • 赚100亿,烧1万亿!OpenAI算力神话:英伟达撒钱、AMD送股、全硅谷陪跑
  • 英伟达垄断AI算力局面或将被颠覆!AMD赌上身家发起决斗,奥特曼窃喜
  • 刚刚,2025年诺贝尔化学奖揭晓!偷溜进图书馆的少年,改变了世界
  • 小心,AI依赖会让你变笨!吴恩达等专家教你如何正确使用AI
  • 无RLHF,7M小模型反超DeepSeek-R1:三星团队用递归思考取代规模堆叠
  • 告别深度传感器!慕尼黑工业大学提出DropD-SLAM:仅用单目RGB即可实现RGB-D级的SLAM精度
  • IROS 2025 | Waymo与谷歌DeepMind联手提出Drive&Gen:用生成视频评估自动驾驶,虚拟测试更逼真
  • 陶哲轩联手ChatGPT!10分钟击碎30年「无理」难题,数学圈炸裂
  • 刚刚,奥特曼官宣ChatGPT「终极OS入口」!8分钟速搭智能体,8亿人狂欢
  • 顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考
  • 4万亿帝国接班人浮出水面!苹果不需要另一个库克
  • 刚刚,2025年诺贝尔物理学奖揭晓!量子计算成最大赢家
  • 告别梯度!Evolution Strategies全参微调挑战PPO/GRPO:更稳、更省、更好复现
  • NeurIPS 2025 | 北邮用“图+文”把人物检索拉满:自动合成数据 × 细粒度特征对齐
  • MICCAI 2025 | 莱斯大学提出MetaSeg:参数减少90%,元学习隐式网络重塑医学图像分割
  • TPAMI 2025 | 电子科大等提出EEMFlow:从事件相机学习高效Meshflow与光流,速度提升30倍
  • OpenAI 与 AMD 签百亿美元协议,后者股价暴涨;特斯拉廉价 Model Y 将于 7 日发布;知名旅行、听歌应用入住 ChatGPT
  • 乔纳森下一个iPhone神话,要黄了?OpenAI秘密AI硬件深陷三重困境
  • 3年手搓ChatGPT!剑桥天才少年在Minecraft游戏中爆火回归
  • 一举击败Claude Code!微软提出代码生成黑科技:一键直出36K行代码
  • 刚刚,2025年诺贝尔生理学或医学奖揭晓!三位得主点燃器官移植希望
  • OpenAI入股AMD,股价暴涨35%!奥特曼左手黄仁勋,右手苏姿丰,通吃全球算力
  • 自进化Agent的第三种可能:隐式记忆,不动模型参数,胜过GRPO
  • 真实数据、全链路、可复核:GenoMAS打造更可信的基因分析智能体
  • NeurIPS 2025 | 高通提出GCL:无需额外数据,通用多模态检索迎来“一统江湖”新范式
  • NeurIPS 2025 | 慕尼黑工业大学提出SIM(3)等变网络:让3D形状补全告别“姿态偏见”,实现跨域泛化
  • 今日迎本世纪「最晚中秋月圆」;雷军:小米17 五天销量破百万;ChatGPT 或添私信聊天功能
  • 腾讯王者归来:混元图像3.0登顶LMArena!一手实测全球最强图像AI
  • AI「学不会」竟成相变探针!UCSD华人联手谷歌等,曝光量子纠缠秘密
  • 最新,2025诺奖预测出炉!中国科学家有望拿下化学奖?
  • 奥特曼:感受不到GPT-5变强,是因为你还不够「专业」
  • GPT-6或将比GPT-5强10倍!奥特曼揭秘ChatGPT如何诞生
  • 宾大提出F³:事件相机迎来“预测性”表征新范式,光流、分割、深度全SOTA!
  • LSTM之父再出手!xLSTM挑战Transformer:一场关于Scaling Laws的正面交锋
  • NeurIPS 2025 | AI也能做数学建模?本科生携手MM-Agent勇夺美赛全球前2%
  • “移步换景”一试,大模型全乱了:OST-Bench揭示MLLM时空推理短板
  • 微软下架「炉石」等多款游戏;华为云:华为算力效能超英伟达芯片 3 倍;马斯克回应特斯拉机器人打拳:并非遥控

永别了,人类冠军!AI横扫天文奥赛,GPT-5得分远超金牌选手2.7倍



  新智元报道  

编辑:KingHZ 桃子
【新智元导读】国际奥赛又一块金牌,被AI夺下了!在国际天文与天体物理奥赛(IOAA)中,GPT-5和Gemini 2.5 Pro完胜人类选手,在理论和数据分析测试中,拿下了最高分。

一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发

IMO、IOI之后,AI再夺奥赛冠军。

刚刚,在国际天文与天体物理奥林匹克竞赛测试中,GPT-5和Gemini 2.5 Pro达到金牌水平!

在理论考试上,Gemini 2.5 Pro总体得分85.6%,GPT-5总体得分84.2%;

在数据分析考试中:GPT-5总体得分88.5%,Gemini 2.5 Pro总体得分75.7%。

在IOAA 2025上,AI的表现惊人,其水平竟高达人类金牌得主的2.7倍!

我们正在见证AI大爆炸——今日之奥赛,明日之科学,AI将推动全部学科的进展。

上下滑动查看


AI再夺IOAA金牌,见证历史!


国际天文与天体物理奥林匹克竞赛(International Olympiad on Astronomy and Astrophysics,IOAA),由国际天文学联合会主办的全球性青少年天文赛事,是国际科学奥林匹克竞赛之一、全球天文科学领域最具有影响力的赛事之一。

竞赛包含理论测试、实测数据分析、天文观测三大核心环节,并设置团队协作项目以增强国际互动。

这些竞赛试题极为严苛,通常只有全球最顶尖的学生才能解答。

它们需要深厚的概念理解能力、冗长的公式推导,以及需耗时数小时才能完成的天体物理学难题。

如今人工智能不仅能够通过考试,更在全球200至300名人类参赛者中跻身前两名。GPT-5平均得分85.6%,Gemini 2.5 Pro获得84.2%——两者均达到金牌标准。

我们已正式进入AI能与物理学和天文学领域最聪颖的年轻头脑抗衡的时代。

这并非琐碎知识的比拼,而是关于中子星、吸积流、磁场和轨道力学的尖端推理。

人工智能不再只是生成文字,它开始思考宇宙的奥秘。

但报告指出,在空间和时间推理方面,目前所有LLM都存在困难。

因此,ASI之路还很长,仍需上下求索。


五大LLM打擂台,几乎全线摘金


最新研究由俄亥俄州立大学团队完成,重点考察了五大顶尖LLM,在天文和物理学方面的实力。

论文地址:https://arxiv.org/pdf/2510.05016

为此,他们选取了最近四届IOAA理论考试(2022-2025)。之所以选择IOAA来衡量,原因有三:

  • 现有的基准,如AstroMLab、AstroBench等仅通过选择、简答和判断题来考察LLM的天文学知识;


  • IOAA题目具备全面性,涵盖了宇宙学、球面三角学、恒星天体物理学、天体力学、光度学和仪器学等广泛的主题;


  • IOAA将理论物理、观测约束和真实天文数据与数学计算融为一体,为评估LLM的科学问题解决能力提供了一个独特的视角


除了以上提到的Gemini 2.5 Pro和GPT-5,团队还让o3、Claude-4.1-Opus、Claude-4-Sonnet等三款模型共同参战。

它们均是在AstroBench表现最强模型之一,而且还具备了多模态能力。

所有模型的输出,由两名IOAA专家遵循官方评分细则进行独立评分。

实验结果:理论考试


在理论考试中,GPT-5和Gemini 2.5 Pro表现最佳,比分高出其他模型约7到25个百分点。

具体来说(见下表2),GPT-5在2022年(93.0%)、2023年(89.6%)和2025年(86.8%)取得最高分,而Gemini 2.5 Pro在2024年以83.0%夺冠。

在以几何题为主的2024年试卷上,Gemini 2.5 Pro凭借更强的几何问题解决能力,取得了最佳总体成绩(85.6%);GPT-5在该年未能获得高分。

尽管总体表现强劲,GPT-5在难题上的表现优于简单与中等难度题。

对此,研究人员分析出三点可能的原因。

第一,各难度级别的问题数量较少,容易产生表现波动:简单题仅10道,中等题11道,分别约占总分185分和151分(总分为所有类别的1200分)。因此,少数错误就能显著影响模型在该难度段的得分。

第二,GPT-5在2024年试卷上出现了若干重大失误,这些失误多来自涉及几何与空间可视化的题目。

第三,GPT-5有时在天体物理学题上出错。例如,2024年试卷的第9题(被归为简单题)中,GPT-5因概念性错误与计算错误共损失18分——这一题的错误几乎占简单题可得分数的10%。

基于这些原因,研究人员认为,GPT-5在简单题和中等难度题上表现不佳,并非由于明显的不当行为;更大的数据集,可能会减少偶尔错误的影响,并在难度类别之间实现更平衡的分布。

其他模型也具有竞争力:OpenAI o3总体得分77.5%,比Claude系列高出约13–17个百分点;其中Claude Opus 4.1得分64.7%,Claude Sonnet 4得分60.6%。

此外,这些模型的表现会随着题目难度的增加而下降。

尽管三者在某些简单基准(如带多项选择题的AstroMLab)上的表现相近并且积极,这次评估仍揭示了显著的性能差距。

这提示需要更全面地评估天文学领域的LLM,以测试其在问题解决能力上超越单纯知识回忆的能力。

实验结果:数据分析考试


相比之下,数据分析考试更能揭示模型在细节与多模态任务上的能力与局限(见表1)。

GPT-5在数据分析部分表现出色,总体得分88.5%,高于其理论考试成绩(84.2%)。

这一提升与其他模型形成鲜明对比:其他模型从理论到数据分析通常下降约10–15个百分点。

造成这种差异的原因在于:

数据分析考试,高度依赖图表解读与数据可视化;  


GPT-5更强的多模态能力解释了其优势。


为进一步推动天体物理领域中大语言模型的发展,研究人员呼吁开发更具生态效度的多模态天文数据分析基准,作为对模型更全面评估的补充。

媲美顶尖人类选手


AI实力却是很强,那么它们是否可与人类一较高下?

为此,研究人员根据IOAA的评分标准,将模型得分与人类参赛者进行比较。

IOAA奖牌的评定基于参赛者总分(理论+数据分析+观测考试之和),相对于中位数的表现——

铜牌为中位数的100%–130%,银牌为130%–160%,金牌则为160%以上。

注:本次评估不包含观测考试,作者分别为理论考试和数据分析考试计算了相应的奖牌门槛。

在理论考试中,几乎所有LLM表现堪称「学霸级别」,得分轻松跨过金牌线!

唯一例外的是Claude Sonnet 4,在2023 IOAA中拿下了银牌。

总体来看,这些模型不仅达到了金牌水平,甚至与全球TOP 200-300顶尖人类参赛者中,名列前茅。

在2022、2024和2025年的考试中,各模型均稳定排名前12。

更令人震撼的是,在2022、2023、2025理论考试中,GPT-5均超过了当年的IOAA最佳学生,堪称「学神」!

Gemini 2.5 Pro在2022和2023年,同样力压最佳人类选手。

OpenAI o3在2023年考试中,亦超过了最佳学生。

Claude Opus 4.1与Claude Sonnet 4在2023年虽未能与顶尖学生相媲美,但它们的得分仍明显高于中位数,分别位列第45和第62。


LLM偶有失败,仍需上下求索


为了更深入地了解LLM在天文问题解决中的长处和短处,根据IOAA理论考试中不同类型的问题,研究人员对LLM的表现进行了分析。

根据评分团队专家的评估,这次研究将理论问题分为两类: 

• 第一类(几何/空间):涉及空间可视化的问题,包括天球、球面三角学、时间计量系统和向量几何。 

• 第二类(物理/数学):主要涉及宇宙学和天体物理计算以及天体力学,不要求几何可视化。

尽管这个分类(上表4)并不全面,但它清楚地揭示了系统性差异:

模型在第二类物理问题上的得分较高(67–91%),而在第一类几何问题上的得分明显较低(49–78%),两者相差15–26个百分点。


这种差异在2024年的考试中尤为显著,当时第一类问题占据了主导地位——只有Gemini 2.5 Pro保持了相对较高的性能(74.7%),而其他模型的性能则下降到了35–59%。

按年份、难度和类别划分的IOAA理论问题分析

即便如此,Gemini在第一类问题上的性能也比第二类问题(91.3%)低12.7个百分点。

为什么LLM在几何问题上表现不佳?

通过定性分析,研究人员发现除了计算错误外,LLM还面临一些根本性的问题。

首先,模型在概念上难以理解球面三角学。例如,GPT-5会写出违反基本几何原理的球面三角学方程,并尝试进行与大圆几何不一致的角度计算。

此外,所有模型在时间计量系统上都表现出混淆,无法正确区分热带年和恒星年。一些解答甚至隐含地将日历年和热带年视为相同。

最后,目前的LLM只能用自然语言进行推理,无法在思考时进行空间表示的视觉化或草图绘制,这与人类参与者相比处于天然劣势。

这些失败模式表明,多模态推理,特别是空间和时间的,是提升LLM在天文问题解决能力的重要未来方向。

除了定性分析外,研究人员还将所有错误定量地分为八个类别,以系统地识别大语言模型的弱点。

图1:所有模型在IOAA理论考试(2022-2025年,其中2023年得分标准化为300分)和数据分析考试(2022-2025年,其中2023年得分标准化为150分)中按错误类型丢失的分数分布。

在理论考试中,概念性错误和几何/空间可视化错误在所有模型中占主导地位,共同占去了60-70%的总失分。GPT-5和Gemini 2.5 Pro显示出最低的整体错误率,而Claude模型的错误率较高。

分布显示,基本的推理错误(概念性和几何性)远远超过了计算错误,特别是Claude模型在概念理解上存在困难,除了Gemini 2.5 Pro和GPT-5之外的所有模型都显示出明显的几何/空间弱点。

在数据分析考试中,错误分布相对平衡,绘图「Plotting」是OpenAI o3、Claude Opus 4.1和Claude Sonnet 4中最突出的错误类别。

在所有模型中,概念性错误最为普遍,反映了实现深度物理理解的难点。

与国际数学奥赛(IMO)等纯数学竞赛不同,物理和天体物理奥林匹克竞赛要求将数学形式与物理直觉相结合,在评估科学推理能力方面别具价值。由于这些错误触及理解的核心,它们通常出现在所有类型的问题中,并导致严重的扣分。

第二大错误来源是几何或空间推理。这些错误完全集中在第一类问题中,这进一步证实了空间推理是大语言模型的一个关键弱点。

模型经常无法可视化三维配置,错误识别天体坐标之间的角度,或在球面几何中错误地应用向量运算。

这些失败甚至发生在几何问题被清晰地用文字描述的情况下。这在第一类问题中占大多数,表明这些限制不仅在于多模态,还在于LLM在处理与空间推理相关任务时的基本能力。

此外,天文学奥林匹克竞赛非常重视近似和数量级推理,因为天文学涉及的尺度非常庞大。

尽管模型通常能够合理地处理近似问题,但特定的失败案例突显了物理直觉方面的差距。

特别是,模型常常在数量级上错误判断天文学距离,或者在问题约束下未能识别近似无效的情况。

解释图表和图像方面的错误,尽管仅限于有视觉输入的问题,但也具有相当的权重。

这种模式与已知的LLM的多模态限制一致,比如记录的图表理解失败,也符合莫拉维克悖论:

对人类来说简单的任务,如视觉解释,对人工智能来说仍然困难。


最后,当模型在没有展示中间步骤的情况下直接给出最终表达式时,会观察到缺失或不完整的推导,这表明数学推理的透明度存在限制。

其他类别,包括计算错误、符号精度和近似错误,导致的扣分较少,表明模型具有相当不错的计算能力。

数据分析考试中的失败模式

与理论考试不同,数据分析考试的错误分布(见图1b)在多个类别中相对较为均匀。

正如预期的那样,绘图和图表及图像阅读在数据分析考试中也会导致扣分。

能力较弱的三个模型,OpenAI o3、Claude Opus 4.1和Claude Sonnet 4,主要的错误类别是绘图,而GPT-5和Gemini 2.5 Pro的主要扣分来源是图像和图表阅读。

计算错误也在数据分析考试中导致了相当一部分的扣分。

对于Gemini 2.5 Pro,计算错误甚至与图像和图表阅读一样,是另一个主要的错误来源。这是因为许多数据分析问题涉及长表格,并且需要计算多个值以生成图表。

值得注意的是,理论考试中主要的扣分原因——概念性错误和几何错误——在数据分析考试中并不突出。

尽管概念性错误可能出现在任何问题中,并且仍然会导致大多数模型在数据分析考试中扣分,但对图表阅读和绘图任务的强烈关注使得其他类型的错误更有可能发生。

参考资料:
https://x.com/gdb/status/1977052555898482727
https://x.com/VraserX/status/1977039338136322463 
https://x.com/ai_for_success/status/1977066532628054401  

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652633708&amp;idx=1&amp;sn=5641ad085392c0cee0b7f3e9cd846a98&amp;chksm=f00da41522a92646aeb01896cfcfd484728caa76928b078280d86c0f9a9248859cc13be7a291&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/SWfiIPsrtJ&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们