动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了

Gemini 3 还没现身,推特先崩为敬。

没有哪家模型的发布比 Gemini 3 更万众瞩目,根据 Gemini 之前 3 个月更新一次的频率,AI 社区自 9 月起便对 Gemini 3 翘首以盼。

今天,谷歌开发者关系负责人、Google AI Studio 负责人一条仅含「Gemini」一词的推文,积蓄了数月的期待终于迎来了爆发点,推特相关话题瞬间沸腾。

图片

有趣的是,临近发布节点,推特竟「应景」地崩了几次。尽管「幕后黑手」是 Cloudflare,但这崩溃的时机简直精准得让人怀疑有人背后搞鬼(小声蛐蛐:毕竟推特是各家模型的宣传主阵地)。

不知道今早刚发了 Grok 4.1 的马斯克此时作何感想,反正网友的梗图已经铺天盖地了。

图片

就在刚刚,Gemini 3 终于正式登场,让我们看看在万众瞩目下登场的它到底有多强。

最智能模型

事实证明,Google 没有让等待的人失望,Gemini 3 正式发布,再一次定义了 SOTA,奥特曼和马斯克也发来贺电。

图片
图片

Google 将其定义为「通往 AGI 的重要一步」,并强调这是目前世界上多模态理解能力最强、交互最深度的智能体。

Gemini 3 不仅在基础推理能力上刷新了 SOTA 标准,更通过推出全新的 Google Antigravity 平台和 Deep Think 模式,试图重塑开发者生态与 AI 辅助体验。

全面霸榜的推理怪兽

Gemini 3 Pro 被官方称为「最先进的推理模型」,在几乎所有主流 AI 基准测试中均显著超越了前代 Gemini 2.5 Pro,并且全面压制了 Claude Sonnet 4.5 和 GPT-5.1 等主要竞品。

Gemini 3 Pro 以 1501 Elo 的突破性高分登顶 LMArena Leaderboard,在 Humanity’s Last Exam(在不使用任何工具的情况下达到 37.5%)和 GPQA Diamond(91.9%)上获得最高分,展示了博士级的推理能力。它还在数学方面为前沿模型树立了新标准,在 MathArena Apex 上达到了 23.4% 的最新 SOTA 水平。

除了文本与逻辑,Gemini 3 Pro 还重新定义了多模态推理的上限。它在 MMMU-Pro 和 Video-MMMU 上分别斩获了 81% 和 87.6% 的高分,这意味着无论是解析复杂的科学图表还是理解动态视频流,它都游刃有余。

更值得一提的是,它在 SimpleQA Verified 上取得了 72.1% 的成绩,显示出在事实准确性上的巨大进步 —— 它不仅强,而且可靠。

图片

拒绝奉承的思维伙伴

Gemini 3 Pro 的进化不仅在于跑分,更在于交互的质感。它摒弃了以往 AI 常见的陈词滥调和过度奉承,变得聪明、简洁且直接:告诉你需要听到的,而不仅仅是你爱听的。

它充当真正的思维伙伴,为你提供理解信息和表达自我的新方式,从通过生成高保真可视化的代码来翻译晦涩的科学概念,到创造性的头脑风暴。

      Gemini 3 编写代码可视化托卡马克装置中的等离子体流,并创作了一首捕捉聚变物理学原理的诗。

Gemini 3 Deep Think

Gemini 3 Deep Think 模式进一步拓展了智能的边界,带来了 Gemini 3 在推理和多模态理解能力上的重大进步,帮助你解决更复杂的问题。

在测试中,Gemini 3 Deep Think 在 Humanity's Last Exam(不使用工具的情况下得分 41.0%)和 GPQA Diamond(得分 93.8%)上的表现均优于 Gemini 3 Pro 已相当出色的成绩。此外,它在 ARC-AGI-2(代码执行,已通过 ARC Prize 验证)上也取得了前所未有的 45.1% 的得分,展现了其解决全新挑战的能力。

图片

      Gemini 3 Deep Think 模式在一些最具挑战性的 AI 基准测试中表现出色。

学习、构建与规划

学习任何事情

Gemini 从一开始就旨在无缝整合任何主题的多种模态信息,包括文本、图像、视频、音频和代码。Gemini 3 结合了其先进的推理、视觉和空间理解能力、领先的多语言性能以及百万级 token 上下文窗口,进一步拓展了多模态推理的边界,帮助你以最适合自己的方式学习。

例如,如果你想学习如何烹饪家族传统菜肴,Gemini 3 可以解读并翻译不同语言的手写食谱,生成可与家人分享的食谱。

图片

或者,如果你想学习某个新主题,就可以提供学术论文、长篇视频讲座或教程,它可以生成交互式记忆卡片、可视化或其他格式的代码,帮助你掌握相关知识。

它甚至可以分析你的匹克球比赛视频,找出可以改进的地方,并制定训练计划,帮助你全面提升球技。

为了帮助你更好地理解网络上的信息,搜索中的 AI 模式现在使用 Gemini 3 来实现新的生成式 UI 体验,例如沉浸式视觉布局、交互式工具和模拟,所有这些都是根据你的查询即时生成的。

      学习像 RNA 聚合酶如何在 AI 模式下的生成式 UI 中工作这样的复杂主题 。

开发任何东西

在 2.5 Pro 成功的基础上,Gemini 3 兑现了将开发者的任何想法变为现实的承诺。它在零样本生成方面表现出色,能够处理复杂的提示和指令,从而渲染出更丰富、更具交互性的 Web 用户界面。

Gemini 3 是谷歌迄今为止构建的最佳 Vibe 编码和 Agent 编码模型,它使谷歌的产品更加自主,并显著提升了开发者的效率。它在 WebDev Arena 排行榜上名列榜首,获得了令人瞩目的 1487 Elo 分数。此外,它在 Terminal-Bench 2.0 测试中也取得了 54.2% 的成绩,该测试旨在评估模型通过终端操作计算机的工具使用能力。同时,它在 SWE-bench Verified 测试中也大幅超越了 2.5 Pro 版本(得分为 76.2%),该测试用于衡量编码代理的性能。

现在,用户可以使用 Google AI Studio、Vertex AI、Gemini CLI 以及谷歌全新的智能体开发平台 Google Antigravity 中的 Gemini 3 进行构建 。它也适用于 Cursor、GitHub、JetBrains、Manus、Replit 等第三方平台。

比如编写一款具有更丰富的视觉效果和更强交互性的复古 3D 太空飞船游戏。

图片

再比如编写更丰富、更具交互性的 Web UI 和应用程序:

图片

规划任何事

自 Gemini 2 智能体之后,Gemini 显著提升了长周期任务中的规划能力。

Gemini 3 的规划能力在 Vending-Bench 2 测试中进一步得到印证:Gemini 3 在模拟售货机经营测试中登顶该排行榜,全程通过长周期规划管理虚拟商业运营。

在完整模拟年度的运营中,Gemini 3 Pro 始终保持稳定的工具调用与决策连贯性,在持续专注任务目标的同时实现了更高投资回报。

图片

Gemini 3 Pro 展现出更卓越的长周期规划能力,与其他前沿模型相比,能创造更高的回报。

Gemini Agent 还可以帮助整理 Gmail 收件箱。

Gemini 3 现已全面开放。即日起,普通用户和订阅用户分别可通过 Gemini App 及搜索 AI 模式使用新模型;开发者与企业客户也能通过 AI Studio、Vertex AI 等渠道接入。至于备受期待的「深度思考模式」,预计将在未来几周内面向 Google AI Ultra 订阅用户独家上线。

另外,根据此前泄露的模型卡,还有许多值得关注的关键信息:Google 使用 TPU 从头开始训练这个模型,作为一个 MoE,具有 1M 输入和 64k token 输出,MoE 意味着他们可以负担得起使其变得便宜。

图片

定价方面,Gemini 3.0 Pro 引入了基于上下文长度的分级定价机制:200k tokens 以下的任务,输入 / 输出价格为 $2.00/$12.00(每百万 token);超过 200k tokens 则分别为 $4.00 和 $18.00。

图片

全新的「智能体优先」开发体验

Google Antigravity 是 Google 全新的智能体开发平台,使开发者能够在更高、以任务为导向的层面上进行操作。利用 Gemini 3 先进的推理、工具使用和智能体编程能力,Google Antigravity 将 AI 辅助从开发者工具箱中的一个工具转变为积极的合作伙伴。

虽然 Google Antigravity 的核心是熟悉的 AI IDE(集成开发环境)体验,但其智能体已被提升到一个专用界面,并被赋予直接访问编辑器、终端和浏览器的权限。现在,智能体可以代表你自主规划并同时执行复杂的端到端软件任务,同时验证它们自己的代码。

除了 Gemini 3 Pro,Google Antigravity 还紧密结合了 Google 最新的用于浏览器控制的 Gemini 2.5 Computer Use 模型,以及其顶级的图像编辑模型 Nano Banana (Gemini 2.5 Image)。

一手体验

既然 Gemini 3 Pro 预览版上线了 AI Studio 平台,我们也来上手体验了一把。

Prompt : SVG of NEW YORK SKYLINE Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block.

图片

Prompt: Create a visually stunning Space Invaders game.

图片

鹈鹕骑自行车曾难倒一众大模型,这次我们也让 Gemini 3 试了下。Prompt:An animated SVG of a pelican riding a bicycle.

图片

相比之前版本,Gemini 3 已有较大进步,不过仍有 bug,比如自行车的脚蹬在天上空转。

我们又换了一个更为清晰的提示词:Create a single, complete, self-contained animated SVG code (no external files or images) of a cute pelican riding a bicycle from a side view. 这次 Gemini 3 生成的自行车似乎没有脚蹬。

图片

写在最后

在 X 博主 Chubby 发起的「到 2026 年底,哪家公司拥有最好的 LLM?」投票中,Google Gemini 遥遥领先。

图片

这种市场信心的回升也体现在了数据上,Alphabet CEO Sundar Pichai 在官方博客中回顾了 Gemini 过去两年的进展:AI Overviews 月活跃用户已达 20 亿,Gemini 应用月活突破 6.5 亿,此外更有超过 70% 的云客户以及 1300 万开发者正在使用其生成式模型。

回望过去两年,从 Bard(Gemini 前身)发布时的仓促应战与股价暴跌,到痛定思痛合并 Google DeepMind、召回创始人、斩获诺贝尔奖,Google 完成了一场教科书般的「大象转身」。

图片

那个曾经定义了 Transformer、如今「All in Gemini」的巨人,已经做好了全面反击的准备。

至于它到底能不能终结「最好的 LLM」之争?别急,让子弹(和服务器)再飞一会儿。

参考链接:

https://blog.google/products/gemini/gemini-3/#gemini-3

]]>

联系我们