动态列表

  • OpenAI开源霸权5天终结,百川M2一战夺冠!实测比GPT更懂中国医疗
  • 硅谷精英放弃生娃!MIT女记者揭秘:人类只是AI垫脚石,世界很快就毁灭
  • 41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
  • 2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
  • 昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周
  • 世界机器人大会:笨拙的今天,与狂奔的明天
  • 「一只手有几根手指」,你的GPT-5答对了吗?
  • 4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
  • 智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
  • 从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
  • ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
  • 脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
  • 第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
  • 机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
  • Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
  • 具身智能技术与应用论坛圆满举行,北京人形公布多项创新成果
  • ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法,让LLM学会解读蛋白质网络
  • 宇树、银河通用都在用:英伟达「物理AI」技术亮相世界机器人大会
  • 毒液抗菌搭配深度学习,千万级数据组中筛得386条备选,91.4%体外验证成功
  • 马斯克:可能失去特斯拉控制权;何小鹏:听雷军劝,全新 P7 做 24 小时耐力测试;传华为将发 AI 推理突破成果
  • OpenAI惊人自曝:GPT-5真「降智」了!但重现「神之一手」,剑指代码王座
  • AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」
  • 刚刚,谷歌摊牌:Genie 3让你1秒「进入」名画,人人可造交互世界!
  • 突破40年Dijkstra算法瓶颈,清华教授等颠覆教科书!斩获STOC最佳论文
  • 小红书为什么要做“漫展”?
  • 腾讯张正友:具身智能必须回答的三个「真问题」
  • token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
  • 联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
  • 40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文
  • GPT-5 发布后遭用户吐槽,GPT-4o 重新上线;苹果创五年多来最大单周涨幅;暑期档电影总票房破 80 亿元:《南京照相馆》超 20 亿|极客早知道
  • AI「解码」古罗马,重现千年铭文真相!DeepMind新模型再登Nature
  • Gemini再揽金牌,力压大学学霸,AI数学推理时代来了!
  • 实测GPT-5 Pro:别被普通版骗了!Pro才是OpenAI真正的顶级模型
  • GPT-5问题太多,奥特曼带团回应一切,图表弄错是因「太累了」
  • ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
  • ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
  • 用户痛批GPT-5,哭诉「还我GPT-4o」,奥特曼妥协了
  • 上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
  • 银河通用亮相 2025 世界机器人大会,搭载英伟达最新 Thor 芯片,Galbot 全球首发震撼登场
  • 李想称知道哪个品牌在黑理想;比亚迪:App 将继续使用「比亚迪」原名;世界机器人大会开幕 | 极客早知道
  • 银河通用WRC首发英伟达Thor,银河太空舱世界首创城市级机器人应用
  • OpenAI o3封王,4比0横扫马斯克Grok 4!全球大模型对抗赛完美收官
  • 单机狂飙4万亿参数,国产AI「四大天王」首次合体!这台超节点鲨疯了
  • 首篇WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化
  • 维他动力Vbot:当遥控器被丢掉,才是机器狗「有生命感」的第一步?
  • 挤不动的世界机器人大会上,自变量秀出了真·通用具身智能
  • 4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉
  • 扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节
  • GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5
  • 从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
  • 上天入地,从内而外:大疆 DJI OSMO360 深度评测
  • 「贴地飞行」:大疆 ROMO 扫地机器人首发体验
  • 「油车智障」的招牌,被奥迪一脚踢开
  • GPT-5 来了,多项能力屠榜;OpenAI 给所有员工发 150 万美金奖金;特朗普喊话英特尔 CEO:必须立即辞职
  • 刚刚,奥特曼发布GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽
  • 北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA
  • 刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
  • 一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
  • OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」的第一步
  • 从能展示到能顶岗,人形机器人的「上班时刻」到了吗?
  • 行业唯一大电池旗舰性能机,iQOO Z10 Turbo+ 2199元起正式发布
  • 云计算一哥首度牵手OpenAI,大模型「选择」自由,才是终极胜利
  • 颠覆互联网的下一波浪潮:Agentic Web来了!
  • 三重激励+全周期扶持,即梦升级这个计划,让AI创作者的成长有迹可循
  • DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
  • 硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
  • 让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题
  • 谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!
  • AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》
  • 一块钱的AI,开始审判人类
  • 您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
  • 人大高瓴-华为诺亚:大语言模型智能体记忆机制的系列研究
  • 3秒级破百+820km续航,全新小鹏P7定义智能轿跑新标准
  • 傅利叶发布全新人形机器人“Care-bot”GR-3,定义"有爱的"交互新范式
  • GPT-5 发布时间定了;宝马 i 系列汽车设计主管 Kai Langer 宣布加入小米;消息称爱奇艺拟赴港上市融资 3 亿美元
  • 鼠标的未来是手环?解码肌肉信号,Meta黑科技登上Nature
  • Claude Opus 4.1代码实测惊人!OpenAI开源模型却只会写屎山?
  • 爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰
  • 全球独家首测Genie 3,实验室细节曝光超震撼!AGI最后一块拼图已实现
  • ICML2025|探索损失加权机制的本质以实现更好的LLM反学习
  • 快270倍,精度超93%,浙大侯廷军、康玉团队等全新扩散生成模型,树立蛋白质-多肽对接新标准
  • 群核科技InteriorGS数据集登顶全球开源榜首
  • Grok 新上的 AI 视频生成,自带「擦边」模式,马斯克靠「踩黄线」称霸 AI?
  • 闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
  • Token成本下降,订阅费却飞涨,AI公司怎么了?
  • ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA
  • 第十三届互联网安全大会:多智能体蜂群掀起安全与 AI 融合革命
  • 震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头
  • 就是阻击OpenAI,Claude抢先数十分钟发布Claude Opus 4.1
  • 北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向
  • OpenAI重新开源!深夜连发两个推理模型,o4-mini水平,笔记本、手机可跑
  • Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
  • 今年CJ,AI 成了游戏产业的「必答题」
  • OpenAI 完成 80 亿美元融资,估值 3000 亿;宇树发布新一代机器狗;英伟达深夜发声:不存在后门、终止开关、监控软件|极客早知道
  • 面向6G环境感知通信!西电开源3Dx3D无线电地图数据集与生成式基准框架
  • 黄仁勋预言成真!AI智能体成GitHub主力,一天顶人类一年
  • 谢赛宁「踩雷」背后,竟藏着科研圈更黑真相:Science实锤论文造假+AI滥用!
  • AI将消灭中产阶级!前谷歌高管惊人预警:未来只剩金字塔尖0.1%和底层
  • 电商上演「魔法对轰」:卖家用AI假图骗下单,买家拿AI烂水果骗退款
  • 科研写作神器,超越Mathpix的科学公式提取工具已开源
  • Nature丨首个AI生成的基因编辑器,脱靶率更低、免疫更轻,兼容碱基编辑
  • 谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
  • 南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?
  • 这个WAIC展台旁,围满小朋友
  • 全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式
  • 技术岗位占比超90%,AI岗位占比近5成!淘天集团开启2026届秋招
  • OpenAI 官宣周活 7 亿;特斯拉宣布马斯克获授价值 290 亿美元股票;苹果脑控技术首次现场演示 | 极客早知道|极客早知道

内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌!



  新智元报道  

编辑:KingHZ
【新智元导读】OpenAI在短短两个月内,让AI从挣扎于小学数学题跃升至国际数学奥林匹克(IMO)金牌水平,背后是通用AI技术的突破。 

OpenAI的ChatGPT真能拿到国际奥数IMO金牌?还是OpenAI的自嗨?背后到底有何隐情?

OpenAI的IMO金牌核心团队Alexander Wei、Noam Brown与Sheryl Hsu做客红杉Training Data播客,分享了如何在两月内让AI斩获IMO金牌🥇。

比如说,OpenAI内部并非所有人都持乐观态度。某位研究员甚至打赌模型不会赢,赔率高达2:1,不过最终因为「不想影响士气」而放弃了赌局。

比赛当天凌晨1-5点,Noam Brown忙里偷闲,小憩了一番,而Alexander Wei疯狂检查模型生成的证明🙈。

他们这次还解释了是如何决定AI是不是拿到了金牌。为了评分,他们雇用了外部的IMO奖牌获得者。每份证明都由三名奖牌获得者进行评分,他们对正确性达成了一致意见 。就这样,他们认为AI的确有能力拿到IMO金牌。

他们还透露证明像「外星语言」般独特,可读性不高。虽有有能力优化,但为了透明,他们选择发布了原始输出。

如果你只想快速了解精华,先看下方要点;想读幕后故事,请继续往下。

要点速读

在短短两个月内,这支OpenAI仅三人的精锐团队就实现了整个AI领域多年未竟的目标——在国际数学奥林匹克竞赛难题上达到金牌级水平。

这是通往ASI道路上最重要的里程碑之一。

这次突破之所以特别引人注目,不仅仅是因为AI的数学能力,更在于其背后的架构。这是一种通用技术,用于扩展测试时间计算,并处理那些远远超出竞赛数学范畴的难以验证的任务。

就在一年前,AI还只能进行短暂的数学推理,仅仅持续十分之一分钟。而现在,已有AI系统能够持续推理长达100分钟。

而超级智能的期望是,随着我们将推理时间扩展到数千甚至数十万小时,我们或许能够开始解决人类在数学、科学等众多领域中那些最伟大的未解难题。

团队还介绍了他们的独特方法:在难以验证的任务上,不用形式化验证工具,而使用通用强化学习技术。

新模型展现出惊人的自省能力——主动承认无法解答第六题,同时揭示了解决竞赛题与取得真正数学研究突破之间的悬殊差距。

IMO 2025第六题是本次竞赛难度最大的题目,大意如下:

考虑一个2025x2025的单位正方形网格。马蒂尔达希望在这个网格上放置一些矩形瓷砖,这些瓷砖的大小可能各不相同,但每块瓷砖的每一边都必须与网格线对齐,并且每个单位正方形最多被一块瓷砖覆盖。


确定马蒂尔达需要放置的最小瓷砖数量,以确保网格的每一行和每一列都有且仅有一个单位正方形没有被任何瓷砖覆盖。

关键亮点如下:

(1)通用技术胜过专用方案。

(2)小团队也能创造大成果:核心团队仅由3名研究人员组成,在最后2个月冲刺完成工作。

(3)自我意识提升AI可靠性:面对最难的题目时,模型能承认自己无法解决,而不是输出看似合理但错误的答案。 

(4)测试时计算扩展助力深入推理:突破的关键在于将推理计算时间从几秒延长到几小时,使模型能更深入思考复杂问题。  

(5)竞赛是进步的起点,而非终点。

Sheryl Hsu(第一排中间女子)分享的OpenAI合照

两个月的奇迹

国际数学奥林匹克(IMO)是全球高中生数学顶尖赛事,难题之难让人类选手也要苦练多年。

即便是天才数学家陶哲轩,10岁时第一次参加IMO,获得了铜牌。约两年后,第二次参加IMO,他才获得了金牌。

可OpenAI的这支小队却只用了两个月!

他们的秘密武器是什么?

在红杉资本的播客《Training Data》中,主持人Sonya Huang揭秘了真相:

他们用了一种叫做「多智能体系统」的技术。

简单说,就是让多个AI「助手」同时工作,像一个超级团队分工协作。

这种方法让他们的模型能在短时间内解决复杂问题。

AI在数学上真令人叹为观止!

就在几年前,AI模型还在为解决小学数学问题而挣扎。

在2024年,GSM8K还被当作评估模型的标准。

GSM8K,即小学数学8K,是一个包含8,500个高质量、语言多样的小学数学应用题的数据集。目前,此数据集的成绩已经饱和:Claude 3 准确率已达95%

但在数学领域,这只是短暂现象。随后,AI数学基准测试出现了美国数学邀请赛AIME,接着美国奥数USAMO。

去年的开源模型数学排行榜

现在,国际数学奥林匹克竞赛金牌也被AI拿下。

AI以惊人的速度突破了所有的数学基准。

AI或觉醒自我意识
敢说自己「没答案」

有时,AI会「胡思乱想」,编造错误答案,同时「理直气壮」,自信过头。

这属于推理模型的「幻觉」问题。

但OpenAI的模型很特别——它能在解不出题时果断说「我不知道」。

比如在IMO第6题上,模型选择不冒险,而是承认自己的局限。

新模型显著减少了「幻觉」问题。

OpenAI研究员Noam Brown认为AI开始向自我意识推理转变:

过去,数学家们需要仔细检查模型的解题过程,因为早期系统常常会悄无声息地弄错不等式或插入错误步骤,导致「幻觉」答案。


在缺乏有效证明时,新更新的IMO模型倾向于说「我不确定」,这大大减少了隐藏错误

这一点让笃信AGI的网友Causal Coder激动地评论:「这比拿金牌还重要!」

为什么?因为这避免了「幻觉」(hallucination),让AI更可靠。

《自然》杂志的研究也支持这一观点:减少错误输出是AI进步的关键。

这不仅在数学竞赛中闪耀,还可能帮我们在未来科学计算中少走弯路。

数学让人谦卑,AI任重道远

尽管这次的进步令人兴奋,但距离千禧难题还很远。

若按IMO题需要1.5小时思考估算,千禧级别需将思考时间放大上千倍,仍任重道远。

GSM8K是小学数学,好学生几秒钟搞定。现在AI从几秒钟进步到IMO级别——天才学生平均每题1.5小时(IMO三题4.5小时)。而研究数学需要这些奥赛天才长大后花1500小时。所以,从1.5小时到数千小时,还有千倍差距。

在千禧问题上,整个领域的专家毕生努力,还没多少进展。数学的深度让人谦卑:从1.5小时到数十万小时的人类思考,还有很长的路。

目前,7大千禧难题只有庞加莱猜想得到了解决

不止是数学
通向通用智能

这次的突破是为了开发通用的推理技术,而不是局限于数学。

他们在短短一年多的时间里,将推理时间从O(0.1分钟)扩展到了O(100分钟)。

除了让长推理以及在难以验证的任务上取得进步之外,这还涉及到扩展并行计算,涉及到多智能体。

在多智能体强化学习(MARL)实验中,两个对立的智能体团队展开对抗

他们通过巧妙设计「奖励函数」,让AI能处理难以验证的难题,相同方法也适用于物理奥林匹克竞赛,不过模型还无法进行实验部分的操作。

在扩展思考时间、处理难以验证的任务以及并行计算上,他们所采用的技术都是通用技术。他们计划在其他系统中使用,或者已经在使用了。

从基础设施的角度来说,这次基本上使用的是和其他项目相同的基础设施。

并没有什么专门为IMO定制。

他们称此次方法接下来会整合进更多OpenAI模型,全面提升推理能力,从而构建更强大的模型,不断改进Agent、ChatGPT以及其他一切。

但全球部署仍需时间。

挑战与梦想:路还长

千年难题如黎曼猜想,人类中的天才一生都难解,AI还需更多突破。

但团队不气馁,他们甚至想让AI学会自己提出新问题——这比解题更酷!

Noam Brown表示,语言模型现在正迅速地一个个克服障碍:

接下来的挑战将是生成新问题,比如创作IMO级别的数学难题「需要专业的数学家...但我看不到任何根本性的障碍。」

红杉的Sonya笑称:「从0.1分钟到100分钟的推理扩展,已经是巨大进步,未来可期!」

这对我们意味着什么?

这个故事不仅炫酷,还很实用。想象一下,未来AI能帮你解决家庭预算、设计新游戏,甚至提出科学新想法! 对于普通人,这意味着更智能的生活助手正在路上。对AI开发者来说,这是个启发:合作和创意能带来意想不到的成果。

参考资料:
https://www.youtube.com/watch?v=EEIPtofVe2Q
https://x.com/Hangsiin/status/1950505990660731084
https://x.com/slow_developer/status/1950504142990139571
https://x.com/chatgpt21/status/1950606890758476264
https://www.sequoiacap.com/podcast/training-data-openai-imo/
https://x.com/sonyatweetybird/status/1950607065380163742
https://github.com/aw31/openai-imo-2025-proofs/
https://klu.ai/glossary/math-eval


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652618467&amp;idx=1&amp;sn=f83a95a834355dad0a2729f279315ae9&amp;chksm=f0978a3d8c034b6e9092ed5ff63738a4db872243ea6983e79998a922d978336e00895c3ccc93&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/hTiYUA9U1h&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们