动态列表

  • OpenAI开源霸权5天终结,百川M2一战夺冠!实测比GPT更懂中国医疗
  • 硅谷精英放弃生娃!MIT女记者揭秘:人类只是AI垫脚石,世界很快就毁灭
  • 41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
  • 2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
  • 昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周
  • 世界机器人大会:笨拙的今天,与狂奔的明天
  • 「一只手有几根手指」,你的GPT-5答对了吗?
  • 4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
  • 智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
  • 从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
  • ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
  • 脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
  • 第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
  • 机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
  • Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
  • 具身智能技术与应用论坛圆满举行,北京人形公布多项创新成果
  • ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法,让LLM学会解读蛋白质网络
  • 宇树、银河通用都在用:英伟达「物理AI」技术亮相世界机器人大会
  • 毒液抗菌搭配深度学习,千万级数据组中筛得386条备选,91.4%体外验证成功
  • 马斯克:可能失去特斯拉控制权;何小鹏:听雷军劝,全新 P7 做 24 小时耐力测试;传华为将发 AI 推理突破成果
  • OpenAI惊人自曝:GPT-5真「降智」了!但重现「神之一手」,剑指代码王座
  • AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」
  • 刚刚,谷歌摊牌:Genie 3让你1秒「进入」名画,人人可造交互世界!
  • 突破40年Dijkstra算法瓶颈,清华教授等颠覆教科书!斩获STOC最佳论文
  • 小红书为什么要做“漫展”?
  • 腾讯张正友:具身智能必须回答的三个「真问题」
  • token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
  • 联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
  • 40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文
  • GPT-5 发布后遭用户吐槽,GPT-4o 重新上线;苹果创五年多来最大单周涨幅;暑期档电影总票房破 80 亿元:《南京照相馆》超 20 亿|极客早知道
  • AI「解码」古罗马,重现千年铭文真相!DeepMind新模型再登Nature
  • 内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌!
  • 实测GPT-5 Pro:别被普通版骗了!Pro才是OpenAI真正的顶级模型
  • GPT-5问题太多,奥特曼带团回应一切,图表弄错是因「太累了」
  • ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
  • ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
  • 用户痛批GPT-5,哭诉「还我GPT-4o」,奥特曼妥协了
  • 上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
  • 银河通用亮相 2025 世界机器人大会,搭载英伟达最新 Thor 芯片,Galbot 全球首发震撼登场
  • 李想称知道哪个品牌在黑理想;比亚迪:App 将继续使用「比亚迪」原名;世界机器人大会开幕 | 极客早知道
  • 银河通用WRC首发英伟达Thor,银河太空舱世界首创城市级机器人应用
  • OpenAI o3封王,4比0横扫马斯克Grok 4!全球大模型对抗赛完美收官
  • 单机狂飙4万亿参数,国产AI「四大天王」首次合体!这台超节点鲨疯了
  • 首篇WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化
  • 维他动力Vbot:当遥控器被丢掉,才是机器狗「有生命感」的第一步?
  • 挤不动的世界机器人大会上,自变量秀出了真·通用具身智能
  • 4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉
  • 扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节
  • GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5
  • 从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
  • 上天入地,从内而外:大疆 DJI OSMO360 深度评测
  • 「贴地飞行」:大疆 ROMO 扫地机器人首发体验
  • 「油车智障」的招牌,被奥迪一脚踢开
  • GPT-5 来了,多项能力屠榜;OpenAI 给所有员工发 150 万美金奖金;特朗普喊话英特尔 CEO:必须立即辞职
  • 刚刚,奥特曼发布GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽
  • 北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA
  • 刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
  • 一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
  • OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」的第一步
  • 从能展示到能顶岗,人形机器人的「上班时刻」到了吗?
  • 行业唯一大电池旗舰性能机,iQOO Z10 Turbo+ 2199元起正式发布
  • 云计算一哥首度牵手OpenAI,大模型「选择」自由,才是终极胜利
  • 颠覆互联网的下一波浪潮:Agentic Web来了!
  • 三重激励+全周期扶持,即梦升级这个计划,让AI创作者的成长有迹可循
  • DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
  • 硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
  • 让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题
  • 谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!
  • AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》
  • 一块钱的AI,开始审判人类
  • 您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
  • 人大高瓴-华为诺亚:大语言模型智能体记忆机制的系列研究
  • 3秒级破百+820km续航,全新小鹏P7定义智能轿跑新标准
  • 傅利叶发布全新人形机器人“Care-bot”GR-3,定义"有爱的"交互新范式
  • GPT-5 发布时间定了;宝马 i 系列汽车设计主管 Kai Langer 宣布加入小米;消息称爱奇艺拟赴港上市融资 3 亿美元
  • 鼠标的未来是手环?解码肌肉信号,Meta黑科技登上Nature
  • Claude Opus 4.1代码实测惊人!OpenAI开源模型却只会写屎山?
  • 爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰
  • 全球独家首测Genie 3,实验室细节曝光超震撼!AGI最后一块拼图已实现
  • ICML2025|探索损失加权机制的本质以实现更好的LLM反学习
  • 快270倍,精度超93%,浙大侯廷军、康玉团队等全新扩散生成模型,树立蛋白质-多肽对接新标准
  • 群核科技InteriorGS数据集登顶全球开源榜首
  • Grok 新上的 AI 视频生成,自带「擦边」模式,马斯克靠「踩黄线」称霸 AI?
  • 闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
  • Token成本下降,订阅费却飞涨,AI公司怎么了?
  • ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA
  • 第十三届互联网安全大会:多智能体蜂群掀起安全与 AI 融合革命
  • 震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头
  • 就是阻击OpenAI,Claude抢先数十分钟发布Claude Opus 4.1
  • 北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向
  • OpenAI重新开源!深夜连发两个推理模型,o4-mini水平,笔记本、手机可跑
  • Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
  • 今年CJ,AI 成了游戏产业的「必答题」
  • OpenAI 完成 80 亿美元融资,估值 3000 亿;宇树发布新一代机器狗;英伟达深夜发声:不存在后门、终止开关、监控软件|极客早知道
  • 面向6G环境感知通信!西电开源3Dx3D无线电地图数据集与生成式基准框架
  • 黄仁勋预言成真!AI智能体成GitHub主力,一天顶人类一年
  • 谢赛宁「踩雷」背后,竟藏着科研圈更黑真相:Science实锤论文造假+AI滥用!
  • AI将消灭中产阶级!前谷歌高管惊人预警:未来只剩金字塔尖0.1%和底层
  • 电商上演「魔法对轰」:卖家用AI假图骗下单,买家拿AI烂水果骗退款
  • 科研写作神器,超越Mathpix的科学公式提取工具已开源
  • Nature丨首个AI生成的基因编辑器,脱靶率更低、免疫更轻,兼容碱基编辑
  • 谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
  • 南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?
  • 这个WAIC展台旁,围满小朋友
  • 全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式
  • 技术岗位占比超90%,AI岗位占比近5成!淘天集团开启2026届秋招
  • OpenAI 官宣周活 7 亿;特斯拉宣布马斯克获授价值 290 亿美元股票;苹果脑控技术首次现场演示 | 极客早知道|极客早知道

Gemini再揽金牌,力压大学学霸,AI数学推理时代来了!



  新智元报道  

编辑:元宇 KingHZ
【新智元导读】Gemini奥数金牌,实至名归!ETH Zurich博士在大学生国际数学竞赛(IMC)中,测试了Gemini的三种模式,表现远高于前8%的金牌门槛,远超普通大学生。

大学生数学不如AI?

近日,在MathArena上,苏黎世联邦理工学院SRI实验室博士生Jasper Dekoninck,启动了一项新比赛:大学生国际数学竞赛(IMC)。

刚刚,他公布了测试结果:

最终,LLM以高分胜出:语言模型在国际数学竞赛中拔得头筹。

Gemini远超普通大学生水平

国际数学奥林匹克竞赛(IMO)一直被研究人员视为AI系统数学推理能力的试金石。

前不久,在刚刚举行的IMO竞赛中,谷歌、OpenAI等相继宣布其旗下LLM获得IMO金牌级成绩。

但由于获奖的AI系统不透明以及在结果上可解释性有限,这些金牌引发广泛的质疑和关注。

这次在MathArena上,首次评估了AI本科生数学竞赛上的表现,不仅仅为了证明AI的确有能力拿下IMO金牌,也为了验证AI在高中级别竞赛(如IMO)中的出色表现是否能够转化为在大学级别竞赛中的成功。

此次测试一共评估了三个系统:Gemini Deep Think IMO(IMO 2025金牌得主)、Gemini-2.5-Pro,以及Gemini-2.5-Pro Best-of-32基线

由于OpenAI获得金牌的模型尚未发布,无法对其进行评估。

测试结果显示,三个系统均获得了极高的分数,远超前8%的金牌门槛。

Gemini Deep Think和Gemini Agent均成功解决了所有问题,仅出现了少量小错误。这些错误通常是由于中间步骤的论证不完整或对已知定理的引用不正确造成的。

有趣的是,Gemini Best-of-32的表现远比在IMO 2025上的表现好,仅在一道题目(P5)上犯了一个重大错误。这可能因为IMC的知识密集度更高,而大型AI模型往往在这种环境下表现出色。

这次得出了三大结论:

结论1:三个模型在IMC比赛中均获得高分,Gemini Deep Think和Gemini Agent在所有问题中都给出了大部分正确的答案。它们的得分足以媲美人类优等大学生参赛者。  


结论2:综合考虑证明质量和清晰度,评委们对模型的排名如下:Gemini Deep Think>Gemini Agent>Gemini Best-of-32。  


结论3:对结果进行的定性分析表明,Gemini Deep Think表现尤为出色,它给出的证明比其他模型清晰有趣得多。它有时会提出真正有趣的方法,而其他自主系统通常使用计算密集型的方法。

但由于这次评估是临时增加的,所以评估规模稍小,每个模型在每个问题上只被评估一次,并且只有一个裁判。

IMC金牌,含金量如何?

国际大学生数学竞赛IMC由英国伦敦大学学院主办,保加利亚美国大学承办,比赛将在2025年7月28日至8月3日于保加利亚的布拉戈耶夫格勒举行。

本次竞赛面向正在攻读大学本科阶段(1至4年级)的学生,参赛者年龄上限为23岁,特殊情况可酌情考虑。不设最低年龄限制。

试题涵盖的领域包括代数、分析(实分析与复分析)、几何与组合数学。比赛语言为英文。

IMC为期两天,每天有5道题目,每题10分。

IMC竞程:https://www.imc-math.org.uk/?year=2025&item=problems

这次采用了类似于下列2025年美国数学奥林匹克竞赛评估的方法,只进行了少许调整。

论文链接:https://arxiv.org/abs/2503.21934

招募了两名经验丰富的评委来评估模型提交的作品。

为了避免污染,评分工作在公布IMC 2025题目后立即开始。每位评委独立为题目制定了评分标准,并对匿名提交的作品进行了评分,满分10分。

每个模型都使用相同的评分标准对全部问题进行了单独评估。

解题时长决定着算力和大模型的使用成本。为此,Jasper Dekoninck回答了三个系统各自耗时情况。

由于时间有限,暂时不会对其他模型进行测评,但这些模型也很可能会在这场比赛中取得优异成绩。

新的评估对于真正测试模型的能力至关重要,有网友已经迫不及待想要看到o3-Pro、Claude、Kimi K2在IMC考试中的表现。

结果分析

除了量化评分,研究人员还从模型的输出中提取了许多定性的观察与见解,帮助更全面地理解各模型在数学推理任务中的表现。

Gemini Deep Think:清晰性最强的证明者

对于数学推理而言,表达清晰不仅是评审者打分的依据,也反映了模型对问题理解的深度。虽然Gemini Best-of-32的很多解答在技术上是正确的,但表达往往混乱,结构不清,缺乏有效的逻辑组织,令人难以跟进其思路。

相比之下,Gemini Agent的逻辑性更好,但它的证明往往过于冗长、密集。这种啰嗦的风格可能源于其「自验证反馈机制」(self-verifying feedback loop),即模型倾向于对每一步骤过度解释。

而Gemini Deep Think的表现则更为出色:它提供的证明语言简练、结构清晰、步骤合理,能够针对每一步安排恰当的详细程度,使读者更容易理解其推理过程。

Gemini Deep Think:展现了真正的原创思维

AI模型常见的做法是依赖「暴力运算」(bashing),即用繁复的代数操作代替数学洞察力。这一点在Gemini Agent和Gemini Best-of-32的解答中表现尤为明显,特别是在第9题上。

而Gemini Deep Think的策略更加优雅与创新:

第7题的证明也因其高度的简洁性与美感而脱颖而出,远胜其他模型;  在第9题中,它给出了一个比官方解更为简洁且更具启发性的思路;  在第10题中,它更是运用了更为高级的数学工具,对某个关键变量给出了更强的上界。不过,它也因为跳过了若干推理细节,导致该题只得到了7分(满分10分)。

官方相关解答:https://www.imc-math.org.uk/imc2025/imc2025-day2-solutions.pdf

高阶数学知识的调动能力

模型在第5题上的表现也值得关注。该题涉及一个函数的不等式证明,虽然题干并未给出函数名称,但实际上是著名的Landau函数。

令人惊喜的是,三个模型都能准确识别出该函数,并调用其已知性质构建完整证明,体现了它们在知识调用方面的深度与准确性。

网友:o3只要10分钟就能交卷

关于IMC题目的难易程度,Jasper Dekoninck认为IMC的题目中最难的问题难度,与本科期间遇到的最难问题相当。

网友Dmitry Rybin表现出了对测试的极大热情:「太好了,本来我想把题目发给你,但你已经做了」。

他还用o3测试了IMC2025年全部试题,大约十分钟它就搞定了10道题目。

但网友Jasper Dekoninck认为o3输出的第5题答案似乎有些瑕疵,可能会被扣分。

与IMO相比,IMC题目通常需要更高级的数学知识和形式化技巧。然而,IMO往往更注重创造力和独创性,尤其是在解题方法方面。

连Jasper Dekoninck自己也认为IMC这些更侧重知识的竞赛题目似乎太简单了。

网友Acer对此亦有同感。

他认为目前IMO(国际数学奥林匹克竞赛)、Putnam(普特南数学竞赛,美国大学生数学竞赛)、Miklós Schweitzer(施魏策尔·米克洛什数学竞赛,匈牙利大学生本科数学竞赛)的难度比较适合,但模型仍能解决其中大部分问题。

AI数学推理,已无法忽视

尽管IMC可能更多依赖数学知识,但AI日益强大的数学推理能力,已经令人无法忽视。

比如,Dmitry Rybin提出了一个困难但已知的线性代数结果:

如果AB - BA的秩为1,那么矩阵A和B有共同的特征向量。

Deep Think 使用Shemesh定理给出了一个Dmitry Rybin以前从未见过的证明。

与数学关系密切的信息学竞赛上,AI表现非常夺目。

在玻利维亚第37届国际信息学奥林匹克竞赛(IOI 2025),ryanbAI在与其他人类选手完全相同的条件下参赛,以第七名的成绩位列总榜。

随着更多AI在国际性数学竞赛中脱颖而出,它们可以挑战越来越难的数学竞赛,甚至可以给出新的证明思路,这些均表明AI在数学推理能力上日益强大。

而且AI相比较人类,在计算和数据处理方面能力更强,也更不容易出错误。网友Jason Lee表示,找到AI的错误非常困难。

参考资料:
https://x.com/j_dekoninck/status/1952335201431937445
https://matharena.ai/imc/


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652618467&amp;idx=2&amp;sn=f92471647fe881497feddbe3bd61b76a&amp;chksm=f054866acd8b8afa7133b343ec264887d78e2028a427eb13481057b7a33a8fe251c7ce70b8b4&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/Wy2SdTh66D&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们