动态列表

  • GPT-5难产内幕曝光!核心团队遭挖空,推理魔咒难破,靠英伟达续命
  • 哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
  • Hinton预言成真,美国大学生掀起本科辍学潮!月入万刀修马桶,不怕AI裁员
  • 天才美少女的开挂人生,首次揭晓!11岁自学微积分,17岁推翻40年难题
  • GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
  • 19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
  • 通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
  • ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
  • 一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
  • 多模态后训练反常识:长思维链SFT和RL的协同困境
  • 库克打气苹果 AI:不拼首创,自信能主导市场;微信提现手续费下调至 0.01 元;Manus 推 Wide Research
  • 微软破4万亿,被裁员工扎心!70级工程师天价薪酬曝光:入职大礼包2700万
  • 港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法
  • 刚刚,OpenAI神秘开源模型泄露!「闪现」1分钟被删,配置被网友扒光
  • 24岁辍学博士,小扎捧2.5亿薪酬包亲自上门抢人!AI顶薪已让NBA汗颜
  • 奕派科技重磅发布“未来之翼”战略,2026款东风奕派eπ008限时先享价17.36万元
  • 一切竞争,都变成了「AI 竞争」
  • 途深智合推出旗下AI科研品牌--追梦AI
  • 模型共享、数据互通、设施互连,上海人工智能实验室上线「书生」科学发现平台
  • 一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么
  • 联合三大蛋白质模型,仅需4~6周,定制癌细胞特效「识别器」
  • 全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告
  • 中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先
  • 驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代
  • 思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
  • 超聚变亮相WAIC 2025 重构数智化平台,共建智能体时代
  • Manus大升级,100多个智能体并发给你做任务
  • 挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
  • 机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
  • 火山引擎作为「AI 原生」基础设施,变得更强了
  • 英伟达回应「芯片后门」:不存在后门;大疆推 Osmo 360 全景相机,2999元;微软成第二家 4 万亿美元公司
  • WAIC唯一指定C位,AI「国家队」又赢麻了!秒懂Hinton伦敦腔,现场杀疯老外狂点赞
  • 首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
  • 小扎一夜反水,背刺开源!亲手葬送「Llama神话」,股价大涨12%
  • GPT-5发布倒计时?全网泄露来了:微软Copilot憋大招,GPT-5上线最后冲刺!
  • 17.98 万的乐道 L90,有多少蔚来的诚意,就有多少李斌的「求生欲」
  • ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
  • 当提示词优化器学会进化,竟能胜过强化学习
  • ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
  • 谷歌发布AlphaEarth基础模型:构建「地球版ChatGPT」,融合多源数据,实现10米级地球观测
  • 微软花重金做的Copilot,居然被WPS一个按钮给秒了?
  • 定义科学智能2.0:在WAIC,复旦与上智院的答案是开放协作、科学家为中心,以及一个「合作伙伴」
  • OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
  • VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
  • XREAL One Pro 体验:AR 老炮的自我革命
  • WAIC UP! 之夜:一场关于AI与人类未来的星空思辨
  • AI 智能体,让每个人可以像科学家一样工作和思考
  • 刚刚,扎克伯格公开信:Meta不会开源全部模型
  • 没敲过代码的我,半小时「聊」出一个能用能分享的「小程序」
  • 把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
  • 32.18万起!理想i8正面「硬刚」特斯拉Model X
  • 智能驾驶最大的障碍,不是懂车帝
  • 刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
  • 小米青年公寓正式启用,1999 元/月;Meta AI 数据中心投入 720 亿美元;NBA 引入「AI 篮球」
  • AI百人榜刷屏,小扎照单全收?辛顿Ilya师徒霸榜,第二名竟是本科生
  • 炮轰黄仁勋,决裂奥特曼!1700亿美元估值背后,硅谷最不好惹的AI狂人
  • 别只盯着李飞飞!AI的「3D数据底座」已被这家中国公司悄悄建好
  • 无需准确传感信号!轻松搞定「多段软体机械臂」复杂位姿与形状控制
  • Nature 子刊 | DeepSeek落户超750家医院,清华团队剖析AI医疗监管隐忧
  • P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
  • 开出10亿美元天价,小扎挖人Mira创业公司惨遭拒:俺们不差钱
  • 当智能成为主要生产资料,硅基经济学引爆「AI+金融」
  • SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
  • 刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
  • 凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o
  • AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
  • 字节辟谣「豆包汽车」:无造车计划;英伟达市值突破4.3 万亿美元;传特斯拉将推「低价赛博皮卡」
  • 科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
  • 全球首次,「AI记忆」开源落地!MIRIX同步上线APP
  • GPT-5基准测试泄露,被曝两天后发布?打Minecraft震撼开挂网友直呼封神
  • 马斯克偷偷憋了个大招!Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
  • 理想i8正式发布:首款纯电SUV,售价32.18万元起
  • WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
  • 通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
  • 这家国内公司,在给具身智能技术栈做「通解」
  • ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
  • 全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发
  • LeCun出手,造出视频世界模型,挑战英伟达COSMOS
  • 联合十余家国产生态,商汤大装置发布“算力Mall”,打造算力超级市场
  • 用说的就能做 App,这家公司想做 AI 时代的 ins
  • 从数字人到「有温度的」机器人,京东把 AI 深度应用的路线图「摸透」了
  • 开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
  • 共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
  • 阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
  • 不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
  • WAIC2025,斑马智行元神AI获国际测评机构全项第一
  • 蛋白质基座的GPT时代来了?AMix用Test-time Scaling让蛋白质设计迈向通用智能
  • Allegro-FM:剑指分子动力学基础模型,零样本预测89种元素及复杂反应
  • AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了
  • GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力,破解出海成本与效率难题
  • WAIC 2025: 斑马智行元神AI大模型,获全球机构测评第一
  • 国内首例!由钉钉AI平台训练的豆蔻大模型通过妇产科主任医师考试
  • 闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
  • 智谱发布新一代基座模型GLM-4.5:开源、高效、低价,专为智能体而生
  • AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay
  • WAIC 2025前探:AI硬件如何改变我们的日常生活
  • 这届WAIC,无问芯穹发布了三个「盒子」
  • 「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
  • EvaLearn:AI下半场的全新评测范式!
  • 蚂蚁数科发布金融推理大模型 助力金融机构加速落地智能体应用
  • 2025 WAIC容联云AI AGENT论坛启幕,以技术引擎驱动产业智能跃迁
  • 商汤大装置亮相WAIC 2025,多项标志性成果打造AI基础设施新范式
  • 广大、清华等开发EdgeAIGC,让边缘缓存命中率飙升41%,AIGC延迟与成本双降
  • WAIC直击|快手可灵AI引领「生成式AI应用元年」,累计生成超2亿视频
  • 硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
  • ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
  • 扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
  • 多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
  • 具身智能,腾讯「低调入局」
  • 首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
  • 特斯拉廉价 Model Y 减配内饰曝光;Firefox 终止中国账户运营;宇树王兴兴:经常偷懒,用 AI 写代码|极客早知道
  • CEO卷走24亿,二号员工血亏99%!30亿Windsurf梦碎内幕曝光
  • 90后养老就靠它?清华系机器人WAIC炫技,叠衣取货秀翻全场
  • 谁是Adam?NeurIPS 2025审稿爆年度最大笑话!Hinton也曾被拒稿
  • Nature子刊 | 上交突破极限,端到端无人机高速避障,可微分物理实现
  • 菲尔兹奖得主深度参与,WAIC全方位探讨「AI for Math」
  • AI遇上华夏上古,复旦、上智院、上海创智学院联合发布早期中华文明多模态大模型
  • AI Agent 第一波浪潮过后,OPPO 是怎么闷声做出第一个爆款的?
  • Vibe Coding 开赛,阿里靠新模型赢麻了?
  • 钛动科技发布首个全球营销 AI Agent,改写中国品牌出海「新叙事」
  • 你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
  • 把《坤舆万国全图》装进口袋,扫描全能王黑科技亮相2025WAIC
  • ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
  • 世界人工智能大会:分子之心发布10大解决方案 AI蛋白设计迈入“可编程”时代
  • 离线智能,什么时候迎来 DeepSeek 时刻?
  • 阿里模型三连发闪耀WAIC,中国开源模型“周级迭代”引领AI新变革
  • Anthropic 最新估值超 1500 亿美元;首款国产消费级 6nm GPU 亮相;100% 预防艾滋神药获准上市

刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想

网友:Deep Think 简直太疯狂了。

本周五,谷歌宣布向 Google AI Ultra 订阅用户推出 Deep Think 功能,并将全版本的 Gemini 2.5 Deep Think 模型(用于 IMO 竞赛)提供给部分数学家使用。

图片

新版本融合了一系列早期测试人员的反馈和研究突破,比今年 I/O 大会上首次发布的版本有了显著改进。

谷歌表示,2.5 Deep Think 是最近在今年国际数学奥林匹克(IMO)比赛中获得金牌的模型的变体。虽然该模型需要数小时才能推理复杂的数学问题,但今天发布的版本速度更快,日常使用体验也更佳,根据内部评估,其在 2025 年 IMO 基准测试中仍能达到铜牌级的性能。

Google DeepMind 表示,Gemini 2.5 Deep Think 对于正在解决难题的研究人员、科学家和学者很有用。它不仅能回答问题,还能运用并行思维和强化学习技术进行头脑风暴。

谷歌展示了一名数学家 Michel van Garrel 使用深度思考能力证明猜想的经历。

现在, Google AI Ultra 订阅用户可以在 Gemini 应用中使用 Deep Think,只需在模型下拉菜单中选择 2.5 Pro,并在提示栏中切换「Deep Think」即可使用。Deep Think 会自动与代码执行、 Google 搜索等工具配合使用,并且可以生成更长的响应。

已经有很多网友第一时间进行了测试,看看他们实现的效果。设计一个小游戏:

图片

赛博朋克核反应堆控制界面:

图片

测试过的人表示,使用次数限制似乎是 5 条 / 24 小时

1X 机器人的 Eric Jang 表示,看起来我们距离一个能证明简单猜想,做出新数学发现的 AI 模型只有不到 12 个月时间了,距离大语言模型的「初步」自我完善还有不到 24 个月的时间。

eric jang.png

谷歌还计划在未来几周内通过 Gemini API 向受信任的测试者发布带工具和不带工具的 Deep Think,以便更好地了解其在开发者和企业用例中的可用性。

延长 Gemini 的并行「思考时间」

就像人们通过探索不同的角度、权衡潜在的解决方案并完善最终答案来解决复杂问题一样,Deep Think 通过使用并行思维技术推动了思维能力的边界。这种方法让 Gemini 能够同时生成多个想法并同时考虑它们,甚至可以随着时间的推移修订或结合不同的想法,最终得出最佳答案。

此外,通过延长推理时间或「思考时间」,谷歌为 Gemini 提供了更多的时间来探索不同的假设,进而为复杂问题找到创造性的解决方案。

谷歌还开发了新颖的强化学习技术,鼓励模型利用这些延长的推理路径,使 Deep Think 能随着时间的推移成为一个更好的、更直观的解决问题者。

最先进的性能

Deep Think 能够帮助人们解决需要创造力、战略规划和逐步改进的难题,例如:

  • 迭代开发与设计: Deep Think 在需要分步骤构建复杂事物的任务中的表现亮眼。比如,Deep Think 可以同时改进网页开发任务的美学和功能性,仅使用一个提示词就能让模型生成了一幅宝塔的体素艺术图像。与 2.5 Pro 相比,Deep Think 为场景的各个方面添加了越来越多的细节,从宝塔的建筑结构,到树木的保真度,再到地平面的多样性,提示的各个方面都得到了更深入的处理。

image.png

      Deep Think 在 Gemini 应用中使用并行思维技术,提供更详细、创造性和深思熟虑的回应。

  • 科学与数学发现:由于它能够推理高度复杂的问题,Deep Think 成为研究人员的强大工具。它可以帮助提出和探索数学猜想,或推理复杂的科学文献,从而加速发现的过程。

  • 算法开发与编程:Deep Think 在处理需要精确问题表述、权衡取舍和时间复杂度的重要编码问题时表现尤为出色。

此外,Gemini 2.5 Deep Think 在多个基准测试中取得了优秀成绩,分别在 HLE(34.8%,无外部工具使用)、Live Code Bench V6(87.6%)、IMO2025(60.7%)和 AIME 2025(99.2%)中表现突出,展现了其在复杂问题解决、编程和数学领域的强大推理能力。

image.png

Gemini 2.5 Deep Think Model Card:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Deep-Think-Model-Card.pdf

谷歌表示,在 Gemini 的整个训练和部署阶段着重提升了安全性。测试中,Gemini 2.5 Deep Think 的内容安全性和语气客观性相比 Gemini 2.5 Pro 有所提升,但拒绝良性请求的倾向有所增强。随着 Gemini 问题解决能力的提升,谷歌正在评估相关风险并实施安全缓解措施,确保其高级功能的安全性。

参考链接:

https://blog.google/products/gemini/gemini-2-5-deep-think/

]]>

联系我们