动态列表

  • 比互联网泡沫惨17倍!AI裁员潮上万科学家下一站在哪里?
  • 300只狗试用延寿药,「寿命曼哈顿计划」启动!
  • NeurIPS重磅:华南理工团队重构扩散模型推理,质量效率双SOTA
  • MIT经济学博士生,用AI骗过了诺奖导师、Nature、美国国会
  • 2025 IDEA大会沈向洋提出智能演进的五个维度:机会不仅来自技术本身
  • 基础架构的新探索:清华提出Step by Step Network
  • 罗永浩:当年如果不做 TNT,锤子科技有可能多撑几年;灵光上线 4 天下载突破 100 万;谷歌 AI 搜索出现赞助广告
  • AI半天顶博士6个月,奥特曼太激动!生化圈巨震
  • 别再问什么工作被AI取代!Karpathy直指本质:你的工作「可验证」吗?
  • Karpathy最新发文:醒醒!别把AI当人看,它没欲望也不怕死
  • 马斯克想要「杀死」氛围编程,就像FSD搞定自动驾驶
  • 硅谷今夜笑疯!马斯克自黑「傻胖子」,只因Grok硬捧他打赢泰森
  • 2025宝山·智能机器人产业大会暨嘉年华隆重开幕
  • 解放军总医院联合南大、吉大等机构,共同提出首个「脊柱诊疗大模型」SpineGPT
  • Anthropic发现AI「破窗效应」:只是教它偷个懒,结果它学会了撒谎和搞破坏
  • DeepMind招募波士顿动力前CTO,哈萨比斯点赞宇树
  • 把具身机器人开发变简单,地瓜机器人S600与一站式平台双擎亮相
  • Meta再推WorldGen,简单一句话,竟「盖」出50×50米一座城
  • 华为开源突破性技术Flex:ai,AI算力效率直升30%,GPU、NPU一起用
  • 腾讯混元数字人团队发布Moral RolePlay基准,揭秘大模型的「道德困境」
  • NeurIPS 2025 | MIT新研究:数据集蒸馏迎来“线性时代”,一张图顶半个ImageNet?
  • OpenAI联手菲尔兹奖得主与多位顶尖学者,首次公开GPT-5的科研真实战力
  • ICML 2025 | 联邦学习的“平衡艺术”:FedCEO破解隐私与效用的权衡困局
  • 美团宣布在全国建设「骑手公寓」;2026 款苹果 iPad Air 曝光;月之暗面被曝计划明年下半年 IPO
  • 具身智能「全明星日」来袭!智源组局30+行业掌门人,激辩机器人终极命题
  • 1分钟跑出数百预测!WeatherNext 2把短时预报带入小时级
  • GPT-5得分不到0.4!法律+金融最大规模基准:1.9万+专家评估准则
  • AGI真来了!谷歌Nano Banana Pro实测,设计师天塌了?
  • 2025智源具身开放日:共筑开源基石,抢占全球具身智能生态新高地
  • 核反应堆的「第一次心跳」:初创公司实现零功率临界,研发模式迈向轻量化
  • SGLang Diffusion震撼发布:图像视频生成速度猛提57%!
  • 小米汽车第 50 万辆整车下线;谷歌推出 Nana Banana Pro;华为正式推出乾崑境系列旗舰 | 极客早知道
  • 字节这个「消失」了几年的 App,悄悄杀回苹果商城排行榜
  • 解耦骨骼与体型,实现前所未有的动画真实感!Meta SAM 3D核心技术:开源人体参数化模型MHR
  • 遥感变化检测,ChangeDINO来了:DINOv3驱动,IoU、F1指标全面SOTA!
  • ​「数字分身」白菜价:每月 998 元,雇一个 AI 帮你直播 8 小时
  • 北京内推 | 小红书审核基础算法团队招聘增量预训练/RL/推理方向算法实习生
  • ICLR 2026吃瓜大赏:论文区在卷,审稿区在演,比春晚还热闹的五大名场面
  • AI离“可靠记忆”还有多远?HaluMem首次把记忆系统幻觉拆到操作级
  • 理想亮相广州车展:宣布推送全新VLA、AES辅助驾驶能力
  • 别问树模型了!死磕结构化数据,清华团队把大模型表格理解推到极限
  • Meta超级智能实验室又发论文,模型混一混,性能直接SOTA
  • 超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025
  • 刚刚!腾讯混元开源HunyuanVideo 1.5 元宝上线生视频能力
  • 两院院士增选结果揭晓:周志华、刘云浩当选科学院院士
  • 无需训练、只优化解码策略,DTS框架让大模型推理准确率提升6%,推理长度缩短23%
  • RoboChallenge组委会正式成立:具身智能真机评测迈入标准化共建时代
  • 210亿美元的幻觉?奥特曼投了一家核能初创
  • LeCun出局,Meta变天!Llama 4翻车大清洗,「学院派」大败退
  • 大模型上天、马斯克发射GPU?中国团队直接建「太空超算」
  • 图像模型今夜变天?谷歌刚刚泄露了「Nano Banana Pro」这张王牌
  • AI顶会ICLR最严新规:滥用AI的作者和审稿人,论文一律拒稿!
  • 谷歌Nano Banana Pro上线,深度结合Gemini 3,这下生成世界了
  • DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均
  • AAAI 2025 Oral | 火山引擎多媒体实验室提出VQ-Insight,AIGC视频画质理解大模型
  • OpenAI 的「群聊」,可能比你想得更重要!
  • 最大游戏up主也玩本地AI?让笔记本都能跑大模型的Parallax来了
  • 并行扩散架构突破极限,实现5分钟AI视频生成,「叫板」OpenAI与谷歌?
  • 字节张楠、张宏江、田渊栋······极客公园创新大会 2026 嘉宾阵容更新!
  • 为什么说在 AI 时代,「想象」比「记录」更费劲?
  • NEX:下一代能动性模型体系与开源生态
  • 很强很惊艳!Meta重磅开源SAM 3:可概念提示,统一检测、分割与追踪,性能提升2倍
  • 发布即产品!SAM 3D横空出世:Meta再次颠覆3D视觉,单图即可实现高精度三维重建
  • 本周六,围观学习NeurIPS 2025论文分享会,最后报名了
  • AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
  • 让移动不再成为噪声:搭载AI的新一代可穿戴传感实现高动态条件下的精准识别
  • SOTA集体掉线?美团AMO-Bench揭露大模型数学推理的真实段位
  • 百万步0失误!LLM首次跑通1,048,575步长任务,不崩、不偏、不掉链
  • 星动纪元获近10亿元A+轮融资!吉利资本领投,总订单额破5亿
  • 刚刚,Yann LeCun官宣离职创业,瞄准高级机器智能AMI
  • 分割一切并不够,还要3D重建一切,SAM 3D来了
  • 杨立昆宣布离开 Meta「自立门户」;荷兰暂停干预安世半导体;TikTok 将支持用户设置减少 AI 内容
  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道

谷歌Gemini 3杀疯了!陶哲轩亲测:10分钟干翻百年数学难题



  新智元报道  

编辑:犀牛
【新智元导读】Gemini 3一日霸榜数学、物理两个顶级基准测试!与此同时,陶哲轩用Gemini DeepThink十分钟便搞定了一道埃尔德什难题。

继续领跑!

Gemini 3本周一发布,便开启了横扫各大基准测试之旅,频繁登上各种排行榜的榜首。

Gemini 3不仅跑分领先,面对网友的各种刁钻实测也毫不拉胯。

用现实证明了自己就是目前最强模型!

这不,就在昨天,知名研究机构Epoch AI再添一力证——

  • Gemini 3 Pro在FrontierMath基准测试中创下新纪录:Tier 1-3准确率达 38%,Tier 4达19%。

  • 在综合多项基准测试的Epoch能力指数(ECI)中,Gemini 3 Pro获得154分,超越了GPT-5.1此前保持的151分的最高纪录。

FrontierMath是由Epoch AI联合众多职业数学家打造的一个高级数学基准。

它由数百道原创、从未公开的难题构成,被设计成一块专门测量AI高阶数学推理能力的「试金石」。

这些题目几乎覆盖现代数学的主要分支:从需要大量计算的数论、实分析,到高度抽象的代数几何、范畴论。

普通一道题就足以让相关领域的研究者思考数小时甚至数天。

这些题目大概长这样,大家可以感受一下。

完整数据集包含350道题:其中300题构成Tiers 1–3,难度大致对应从高年级本科到初级研究生水平。

另外50题被归入极端困难的Tier 4,接近乃至达到数学的前沿研究问题。

为便于社区实验,FrontierMath只开放了少量公开子集,其余题目则严格保密,用于评测。

在评测时,模型必须为每道题提交一个Python函数answer(),返回整数(通常)或SymPy等Python对象,由系统自动运行与校验。

这一设计既允许模型调用代码深度推理,又用程序化判分确保结果客观可重复,使FrontierMath成为当前衡量AI数学前沿能力最严苛、也最具说服力的基准之一。

截至目前,FrontierMath排行榜上的领先模型,都是由Gemini和GPT系列占据。


从「跑分最强」到「实战破题」


虽说Gemini 3确实很强,但只是一味的霸榜基准测试,还是差点意思。

至少,缺少点说服力。

还好,Gemini 3很快就在实战中证明了自己。

就在昨天,数学大神陶哲轩发帖表示,他用Gemini Deepthink模式十分钟,便解决了埃尔德什问题#367 的关键证明

为了更清楚地说明这个过程,我们先来简单了解一下埃尔德什问题#367

简单说就是把每个整数拆成积木,凡是只出现1次的积木丢掉,只留下能成对出现、能拼成平方的那一部分,叫B₂(n)。

比如12=2×2×3,只留2×2,所以B₂(12)=4。

现在看一小段连续整数n,n+1,…,n+k-1,对每个数算出B₂,再把这些B₂全部相乘。

埃尔德什问题#367 的问题是:不管这段连续整数多长,这个乘积是不是都不会比n²增长得更快?

也就是说:整数里「平方因子扎堆」的程度,天花板究竟在哪里

为了更方便理解,我用最近最火的Nano Banana Pro画了张信息图。

大家看看怎么样?

言归正传。关于这个问题,陶哲轩在帖子中给出了一条时间线。

11月20号,Wouter van Doorn用AI提出了该问题第二部分的反证,他的论证基于一个还未被证明的同余恒等式。

几个小时后,陶哲轩将这个不等式交给了Gemini Deepthink。

只用了大概十分钟,Gemini Deepthink便解决了这个证明。

太夸张了!

陶哲轩还附上了整个的论证过程。

论证地址: https://gemini.google.com/share/81a65aecfd70

看来这种问题对于Gemini 3还真算不上什么。

随后,陶哲轩手动把证明转化为了一个更加基础的版本,花费了他半个小时的时间。

两天后,Boris Alexeev最终完成了这个证明的Lean形式化,耗时2、3个小时。

陶哲轩用Gemini 3来研究埃尔德什难题,厉害之处不只是「AI 超会算」。

更重要的是:世界顶级数学家,真的把大模型当成工作伙伴了

以后做数学,不再只是一个人苦苦推导。

而是把枯燥的枚举、尝试、检验丢给AI,人类集中精力抓核心思路、做关键判断。

谁先学会和这类工具高效协作,谁就等于多了一个「超级合作者」。


数学之外的物理「试金石」


在登顶数学基准测试的同时,Gemini也霸榜了一项最新的物理基准测试——CritPt。

CritPt的诞生基于研究者们开始追问一个问题:大模型真的能像物理学家那样,完整推进一场前沿研究吗

其全称为 「Complex Research using Integrated Thinking – Physics Test」,要测的,正是 AI 从「像样回答」跨越到「真正推理」的那道临界线。

目前已在Artificial Analysis平台上线。

与以往基于教科书或公开题库的物理题库不同,CritPt是首个专门面向「未公开、真研究级」物理问题的大模型基准。

它由来自阿贡国家实验室、伊利诺伊大学厄巴纳-香槟分校等三十多家机构的五十余位活跃物理学者共同打造,涵盖凝聚态、量子、原子分子与光学、天体物理、高能物理等现代物理的十一大分支。

每道题目都像是交给一名优秀物理学博士新生的一次独立小课题:需要建模、推导、近似与跨领域联想,却又保证答案可机读、可自动严格判分。

CritPt测试的挑战示例如下图所示。

不出意外,Gemini 3 Pro再次霸榜该项物理研究测试。

同样的,GPT-5.1紧随其后。

看来,这两模型还真是代表了当前最前沿的模型水平。

不过,虽然登顶了CritPt,Gemini 3 Pro的成绩也才有9.1%,与满分表现还有些距离。

参考资料:
https://x.com/EpochAIResearch/status/1991945942174761050
https://x.com/ArtificialAnlys/status/1991913465968222555?s=20
https://x.com/kimmonismus/status/1991968861747339508?s=20
https://mathstodon.xyz/@tao/115591487350860999
https://mathstodon.xyz/@tao/115585571504291318
https://www.kaggle.com/competitions/ai-mathematical-olympiad-progress-prize-3/overview

秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652648210&amp;idx=1&amp;sn=a2f833c44b1aa98c8282e430d0c0db63&amp;chksm=f0458523557feba1762580db1322b387dc729eba30beff54df631ee868e064b73c55bcd5b855&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/iM6PkiMtfw&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们