动态列表

  • CVPR史上首次!中国车厂主讲AI大模型,自动驾驶也玩Scaling Law?
  • Nature警告:AI「数据饥渴症」引爆学术宕机潮!90%知识库濒临崩盘
  • 亚马逊码农噩梦来袭!沦落「仓库工人」,每天流水线分拣「AI代码」
  • 特朗普「全政府AI计划」竟在GitHub泄密!或于7月4日「独立日」上线
  • 「人类飞机上吵架看呆袋鼠」刷屏全网,7000万人被AI耍了
  • SFT+RL双管齐下:ReasonGen-R1如何破解文生图「指令不遵」难题?
  • Nature子刊,北大团队使用多视图GNN进行基于生态位的细胞间通信研究
  • 九章云极发布九章智算云Alaya NeW Cloud 2.0, 开创Serverless+RL技术趋势
  • AI进化三年,产业落地真拐点可能就在这场全球顶尖金融智能赛事里
  • 初赛报名截止倒计时!75万奖池+心动Offer,启元实验室重磅赛事等你来战!
  • 高考数学斩获139分!小米7B模型比肩Qwen3-235B、OpenAI o3
  • 如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
  • Nature子刊,中国科大团队提出迁移学习指导的圆偏振磷光材料设计
  • 复旦团队让线粒体自噬「可视化」,AI-FM揪出抗阿尔茨海默病潜力药
  • 通过对话即可执行DNA、RNA和蛋白质任务,InstaDeep提出多模态智能体ChatNT
  • 大模型能否读懂真实病历?哈佛医学院发布BRIDGE大规模多语言评测基准
  • Muon作者仅用一篇博客,就被OpenAI看中了
  • ACL 2025|为什么你设计的 Prompt 会成功?新理论揭示大模型 Prompt 设计的奥秘与效能
  • 罗永浩数字人开播,GMV超 5500 万;泡泡玛特首家珠宝店正式开门;特斯拉 Robotaxi 真车曝光
  • 刚刚!陶哲轩3小时对话流出:AI抢攻菲尔兹奖倒计时
  • 《人类简史》作者怒怼硅谷:智能≠真理,AI正在走偏!
  • 12年博士研究,AI两天爆肝完成!科研效率狂飙3000倍,惊动学术圈
  • 硅谷精英集体参军!代号「201分队」,Meta、OpenAI首席技术官入伍
  • 刚获得一亿美元融资的地瓜机器人,挑战让智能机器人变得更便宜
  • 放弃博士学位加入OpenAI,他要为ChatGPT和AGI引入记忆与人格
  • 机器人也能边想边做!清华团队OneTwoVLA让机器人煮火锅、炒菜、调酒样样精通
  • 复旦大学/上海创智学院邱锡鹏:Context Scaling,通往AGI的下一幕
  • 谢赛宁敲响学界警钟!AI研究可能陷入一场注定失败的有限游戏
  • AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字
  • CVPR 2025 Highlight | 国科大等新方法破译多模态「黑箱」,精准揪出犯错元凶
  • 首个统一的图像与视频AIGC可解释性检测框架,多榜单SOTA性能
  • 特朗普或推出以其名字命名的手机品牌;百度启动最大规模 AI 人才招聘;《鱿鱼游戏》第三季预告发布|极客早知道
  • 小扎豪掷143亿美元赌新「王」!28岁华人亿万富翁入职Meta,与谷歌决裂
  • 模型遗忘不代表记忆抹除!首次系统发现「可逆性遗忘」背后规律
  • 谢赛宁开炮,现场打脸CVPR评审!Sora开山之作DiT被拒,怒斥AI学术圈畸形
  • 和AI聊太深?他们离婚、跳楼、自杀了!ChatGPT精神病正在爆发
  • LLM已能自我更新权重,自适应、知识整合能力大幅提升,AI醒了?
  • 多智能体在「燃烧」Token!Anthropic公开发现的一切
  • 苹果《思考的错觉》再挨批,Claude与人类共著论文指出其三大关键缺陷
  • 单卡4090也能高质量视频编辑!西湖AGI Lab无训练框架FlowDirector来了
  • ICCV 2025 MARS2 Workshop 多模态推理竞赛启动
  • 消息称腾讯未考虑收购 Nexon;追觅否认「断指计划」;李国庆与俞渝就财产分割达成最终和解
  • 光场显微飞跃AI时代!清华等首提SeReNet:毫秒级高分辨光场三维重建
  • 苏妈联手OpenAI,AMD发布3nm怪兽MI355X,性能碾压英伟达B200!
  • 何恺明评审,谢赛宁获奖!牛津华人博士生拿下CVPR 2025最佳论文
  • 刚刚,CVPR 2025奖项出炉:牛津&Meta博士生王建元获最佳论文,谢赛宁摘年轻研究者奖
  • ICML 2025 | 千倍长度泛化!蚂蚁新注意力机制GCA实现16M长上下文精准理解
  • 字节跳动技术副总裁洪定坤:TRAE 想做 AI Development
  • 「倒计时3天」2025 WAIC云帆奖全球征集|共青年之智,铸AGI未来
  • 2025谷歌研究学者计划名单:吴佳俊、Mamba作者Albert Gu、Tri Dao等获奖
  • 一粒「扣子」,开启了Agent的全生命周期进化
  • 聊透 Agent,它是「同事」还是「工具」,创业机会和价值究竟是什么?
  • 零训练即可实现自我演化!首个基于科学智能体架构的AI疾病生物学家发布
  • 腾讯2026青云计划启动,百余项技术课题支持青年人才挑大梁
  • AI研究人员如何节约能源?通过反向计算
  • 提前15天预测50种可能情景,谷歌DeepMind凭借新模型彻底改变了台风预报
  • 腾讯打出「AI岗位薪酬不限」的底气来自哪?
  • 1200行代码逆袭!DeepSeek工程师开源轻量级vLLM,吞吐量逼近原版
  • 刚刚,Scale AI CEO Alexandr Wang正式官宣:Meta重金投资并挖走了我
  • 统一20+多智能体方法,MASLab震撼发布
  • CVPR 2025 论文推荐 :VGGT,快速 3D 重建新范式
  • 科大讯飞最新发布!打造下一代智能交互新范式
  • AGI真方向?谷歌证明:智能体在自研世界模型,世界模型is all You Need
  • CVPR 2025 Highlight|北大联手智元发布首个基于说明书的家电操作评测基准
  • 波音 787 在印度发生首次坠毁事故;哪吒汽车通知员工居家办公;阿里发布高考志愿大模型|极客早知道
  • DeepMind首个猜想库开源,获陶哲轩力挺!
  • 1万块GPU砸向欧洲!老黄怒怼AI末日论:全球首个工业AI云来了
  • 何恺明改进了谢赛宁的REPA:极大简化但性能依旧强悍
  • CVPR 2025 多模态大一统:斯坦福 x 复旦提出符号主义建模生成式任务
  • 精度达原子级,基于深度学习的动态蛋白质设计,登Science
  • 英伟达打造全球首个工业AI云,配万块GPU,物理AI机器人集群已启动
  • 字节自研AI IDE “TRAE”,月活用户已超百万
  • 从高考到实战,豆包大模型交卷了
  • 通义实验室最新成果WebDancer:开启自主智能Deep Research的新时代
  • 256块NPU训成8B视频模型、超越Sora等一众闭源!抖音内容技术团队开源ContentV
  • 拆解火山引擎后,我看到了字节跳动的「变奏」
  • ACL 2025 | 让大模型听懂育种的语言,科学家提出首个种子科学多任务评测基准SeedBench
  • ICML 2025 | Agentic时代唤醒NAS"第二春"!智能体超网动态组队,推理成本暴降55%
  • Image Caption复兴宣言!南大港大CapArena重塑「详细图像描述」评测体系
  • 视频理解“隐秘的角落”:多任务视频文本理解评测新基准VidText发布
  • 博士申请 | 上海交通大学人工智能学院刘松桦老师招收视觉生成方向博士/硕士/实习生
  • SIGGRAPH 2025奖项出炉:上科大、厦大最佳论文
  • 2D图像作中介,零训练实现3D场景生成SOTA:英伟达&康奈尔提出文本驱动新流程
  • 刚刚,LeCun亲自出镜,Meta推出新世界模型!
  • 银河通用X清华大学发布业内首款开源人形机器人全身遥操系统OpenWBT,支持多机型、跨虚实,小时内可轻松部署
  • CVPR 2025 | 多模态统一学习新范式来了,数据、模型、代码全部开源
  • 马斯克道歉,特朗普回应;阿里离职员工发万字长文,马云回应;华为发布 Pura 80 系列,余承东称对得起那四个字
  • 这届机器人太会了!百事蓝宝出道,人形机器人也开始卷情绪价值了
  • 全球首个历史基准!普林复旦打造AI历史助手,AI破圈人文学科
  • 无需上下文,MCP新机制让大模型主动“提需”:节约 98% token 开销,并保持准确率基本不变!
  • 500 万下载、ARR 400 万美元,这只「外星 AI」为何让年轻人上头?
  • 开盘暴涨 3 倍,全球化的影石给中国硬件创新立了新榜样
  • 这家日本企业,有张能跑「百万行」的飞书多维表格!
  • AutoMat:让「看见原子」成为「理解材料」的科学直通车
  • 浙大开发的荧光纳米传感器,超96.67%的准确率识别植物信号
  • 1000 亿天价,扎克伯格买下「半个天才」和 Meta AI 的未来
  • 「Next-Token」范式改变!刚刚,强化学习预训练来了
  • Mistral的首个强推理模型:开源开源,推理速度快10倍
  • 103K「硬核」题,让大模型突破数学推理瓶颈
  • 10%训练数据超越100%表现,机器人学习领域迎来重要突破
  • 建议所有博士都去学一遍,赢麻了!
  • ACL 2025 | 多维阅卷,智识觉醒:打开多模态大模型看图写作评估的认知之门
  • 20 万一台的「人脑计算机」,可能是人类战胜 AI 的唯一方式?
  • 刚刚,OpenAI正式发布o3-pro!奥特曼激动更新博客:温和的奇点
  • 时空压缩!剑桥大学提出注意力机制MTLA:推理加速5倍,显存减至1/8
  • 高考数学全卷重赛!一道题难倒所有大模型,新选手Gemini夺冠,豆包DeepSeek并列第二
  • iOS 26 丑上热搜;多家车企宣布将账期统一至 60 天内;OpenAI 推出最强推理模型 o3-pro | 极客早知道
  • Ilya回归,获授「第四学位」!AI将完成人类能做的一切,毕业演讲实录
  • OpenAI新模型,被曝秘密训练中!万字硬核长文直指o4核心秘密
  • 20人团队提前实现DeepSeek构想,AI算力变天?直击大模型算力成本痛点
  • PrefixGrouper:加速GRPO训练,即插即用,长上下文场景计算效率跃升!
  • 李飞飞团队新作:DiT不训练直接改架构,模型深度减半,质量还提高了
  • 扩散语言模型真的会比自回归好?理论分析结果可能恰恰相反
  • 一个md文件收获超400 star,这份综述分四大范式全面解析了3D场景生成
  • 淘宝获2025年度苹果设计大奖 国内互联网平台首个
  • 不懂编程也可使用,能生成协同自驱动实验室的简易操作界面,开源协调器IvoryOS
  • ICML 2025 | 抗体、多肽、小分子,一网打尽:UniMoMo基于隐空间扩散模型统一生成靶向药物分子
  • 端侧模型卷王诞生!MiniCPM4长文本推理提速5倍,0.5B模型屠榜同级
  • ICML 2025 | 不靠复杂架构,经典GNN再证图级任务强基线地位
  • 地铁换乘都搞不定?ReasonMap基准揭示多模态大模型细粒度视觉推理短板
  • 博士申请 | 纽约大学(上海)计算机系谭桥宇老师招收LLM/MLLM方向全奖博士生
  • 大模型是「躲在洞穴里」观察世界? 强化学习大佬「吹哨」提醒LLM致命缺点
  • 一块4090搞定实时视频生成!Adobe黑科技来了
  • 视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
  • 增速超比亚迪后,新能源狂飙 135%,这家公司做对了什么?
  • 从「互掐」到「牵手」,小鹏华为只为这块「屏」?​
  • 刚刚,苹果WWDC掀AI风暴!端侧模型全面开放、AI版Siri却成最大「鸽子」王
  • 比自回归更灵活、比离散扩散更通用,首个纯Discrete Flow Matching多模态巨兽降临
  • 苹果 iOS26 正式发布;余承东晒华为 Pura 80 Pro 真机;泡泡玛特否认进军 AI 玩具

刚刚,谷歌AI路线图曝光:竟要抛弃注意力机制?Transformer有致命缺陷!



  新智元报道  

编辑:Aeneas KingHZ
【新智元导读】未来AI路线图曝光!谷歌发明了Transformer,但在路线图中承认:现有注意力机制无法实现「无限上下文」,这意味着下一代AI架构,必须「从头重写」。Transformer的时代,真的要终结了吗?在未来,谷歌到底有何打算?

就在最近,谷歌未来的AI路线图曝光!

谷歌产品负责人Logan Kilpatrick在AI工程师世界博览会的演讲中,介绍了Gemini模型的未来。

在未来,Gemini的全模态是重点,模型正在逐步变成智能体,推理能力还会持续扩展。

要点速览——

· 全模态(r) 

    已经原生支持图像 + 音频生成,接下来是视频 


· Diffusion的早期实验(r) 

    扩散模型相关 


· 默认具备Agent能力(m) 

    一流的工具调用与工具使用能力,但更重要的是,模型正在逐步变成智能体


· 推理能力持续扩展(s)

     一个又一个研究突破接踵而至 


· 更多小模型(s) 

    很快会有更多内容可以分享 


· 无限上下文(r) 

    以当前注意力机制和上下文处理方式,这是不可能实现的 我们需要在核心架构层面进行全新创新,才能实现这一目标 


· 大模型 

    规模即一切


注意,(r)、(s) 和 (m) 表示每个项目在谷歌路线图中的进展程度:

• (s) = short: 短期/即将上线——表示已经进行中即将推出的项目

• (m) = medium: 中期——仍在开发中的项目,将在未来几个季度推出

• (r) = research: 研究/长期项目——在发布之前仍处于实验阶段或需要突破性进展

硅谷大厂混战
AI年中成绩单大盘点

可以看出,谷歌现在是春风得意马蹄疾,Gemini 2.5 Pro让它稳稳扳回了一局,再次证明了自己在AI领域老大哥的地位。

X上的大V「Chubby」,也对硅谷大厂们进行了一期「年中盘点」。

OpenAI

目前仍处于领先地位,凭借o3、o3 pro以及即将到来的GPT-5,依然地位稳固。他们保持着定期更新,经常发布AI工具,不断增长的用户数量说明了一切。

DeepSeek

DeepSeek在r1取得可观成功后陆续推出了重大更新,但目前全世界仍在等待后续产品r2。关于DeepSeek后期将如何继续推进,目前尚无线索。

Anthropic

仍然是软件开发(SWE)领域的领头羊。如果其CEO所言不虚,智能体和进一步的发展将在未来几年内实现所有流程的自动化,并由通用智能体来处理。目前,Anthropic 正专注于商业领域(这一点从较低的速率限制上也不难看出),并继续保持强劲地位。

谷歌

然而,今年最大的赢家可能是谷歌,它几乎是从后起之秀跃居领先地位。Gemini 已经取得了令人瞩目成功。产品的定期更新、许多公告,包括出色的TPU定位,让谷歌的未来看起来一片光明。

Meta

不可否认,Meta已经落后了。Llama 4失败了,Behemoth也还没有发布。小扎组建了新的超级智能团队,试图再次迎头赶上。Alexandr Wang从Scale AI加入Meta是否会成为转折点?仍有待观察。

Grok

Grok 3.5也即将上线。目前很难评估。Grok在Colossus集群中显然处于有利位置。然而,它是否能训练出更好的模型?仍有待观察

这其中评价最高的谷歌,接下来一段时间会有什么大动作?

让我们仔细看看Logan Kilpatrick的演讲内容,从中找出关键线索。

全公司公认,Gemini 2.5 Pro是谷歌重大转折点

这次大会上,前OpenAI成员、谷歌AI Studio产品负责人Logan Kilpatrick的演讲干货满满,透露了不少Gemini 2.5 Pro以及将来谷歌Gemini的计划的细节

关于Logan Kilpatrick这位哥,还有一件趣事:据说Gemini制作笑话的能力完全是根据他的推文训练出来的,这就是为什么它们都不好笑。🤣

目前,Logan Kilpatrick负责Gemini API开发及AGI研究

在演讲中,Logan Kilpatrick快速讲了三部分内容:

  1. 关于Gemini 2.5 Pro的一些有趣的发布内容;

  2. 回顾过去一年的Gemini进展;

  3. 展望未来 —— 模型本身、Gemini App,以及开发者平台的后续计划。

关于Gemini 2.5 Pro,他认为它被谷歌内部、也被外部开发者生态认为是一次「转折点」——

在数学、编程、推理上,全面封神,稳坐所有榜单第一。

它为Gemini的未来奠定了坚实的基础。

Gemini的愿景
「统一助手」

Logan Kilpatrick给大家提了一个问题:谷歌过去各产品之间的连接是什么?

大多数人会想到:谷歌账号。但谷歌账号本身其实不「保留状态」,它的作用只是让你登录各个独立产品。

而现在,Gemini正在成为「统一线程」(thread)——串联起谷歌所有服务的那条线。

Gemini App,很有意思,很酷,体现了谷歌如何思考AI产品的未来。

他相信,谷歌的未来会呈现出这样的面貌:

Gemini将成为统一接口,连接所有谷歌产品,形成真正的「全域助手」

目前大多数AI产品,仍然是「用户主动操作」——你要主动提问,主动请求功能。

但最令人兴奋的是AI的下一个阶段:

「主动式AI」 (Proactive AI) ——AI 主动为你发现问题、提供建议、自动处理任务。

而现在,谷歌全力押注新范式转移:

  1. 多模态能力:原生音频处理已支持Astra和Gemini Live,Veo技术保持业界领先,视频整合将是下一阶段重点

  2. 模型进化:从单纯的token处理器转向具备系统化推理能力的智能体,「推理扩展」尤其值得关注

  3. 架构创新:包括小模型生态、无限上下文解决方案(需突破现有注意力机制限制)以及早期扩散实验展现的惊人token处理能力

向「全模态统一模型」迈进

从模型层面看,Gemini最初就被设想为一个统一多模态模型:音频、图像、视频,全都能处理

在这方面,谷歌取得了很大进展:

  • 谷歌I/O大会宣布了Gemini的原生语音能力(文本转语音TTS、语音合成、语音交互);

  • 它已经支持自然对话,听起来非常自然

  • 这些能力已集成到Astro与Gemini Live

Astro是谷歌的研究原型,探索为旗下产品带来突破性能力的途径。

目前,Astro集成了下列能力:

谷歌还在推进「Veo」相关能力(Video + Other),它已在多个指标上达到SOTA水平,未来也会并入主线Gemini模型。

此外,谷歌还在研究「基于扩散的推理」(diffusion-based reasoning)—— Gemini Diffusion。但此项目仍属研究前沿,尚未进入主线,但前景令人期待。

Gemini Diffusion有极高吞吐速率,每秒可采样1000余token

智能体成为主流

最近,Logan Kilpatrick一直在思考:随着系统推理能力越来越强,未来AI产品是什么形态?

过去,开发者总是把模型当作黑盒工具:

输入token,输出 token;

然后在外部构建各种scaffolding(支架)以增强功能。

但现在,情况变了:

模型自身越来越系统化,越来越能自主做事  ,不再只是「被动计算器」

他认为,「推理过程」将成为一个核心变革点:如何扩展模型的推理能力。

他非常期待的问题是:

过去外部做的很多scaffolding,未来是否会被整合进模型的内部推理流程?这将彻底改变开发者构建产品的方式。

更多路线图:小模型、大模型、无限上下文

除此之外,谷歌还会在以下新产品和研究上发力。

  • 更多「小模型」——轻量级,适合移动端与低功耗设备;

  • 更大的模型——满足用户对极致能力的期待;

  • 更重要的是:无限上下文」的研究突破。

当前的AI模型架构(如Transformer)的重要缺陷之一,就是无法很好地支持无限上下文。

谷歌认为,既然注意力机制无法无限扩展,那就必须有新结构。

他们正在积极探索: 如何让模型引入、理解并高效处理超大规模上下文。

即将上线的开发者功能重点如下。

  1. 嵌入模型(Embeddings)  虽然感觉像「AI早期工具」,但仍是核心组件。  RAG应用背后大多数都依赖embedding。  姑给即将发布一款最先进的Gemini嵌入模型,并拓展给更多开发者。

  2. 深度研究API(Deep Research API)  用户对「深度研究」功能喜爱有加。  谷歌正在将这些能力聚合为专门的 API 接口,面向研究型产品开发者。

  3. Veo3与Imagine 4接入API很快将上线。

最后一个重点,谷歌计划重新定位「AI Studio」:

不再是2C产品,而是明确定位为「开发者平台」。

未来,AI Studio将成为真正的开发工具平台,内嵌Agent构建能力,例如Jules或开发者专属代码Agent,为开发者提供完整构建体验。

2024:Gemini最疯狂的一年

对谷歌Gemini团队来说,过去一年可以说是「最疯狂的一年」。

在谷歌I/O上,劈柴展示了一页幻灯片:过去12个月,谷歌Gemini团队仿佛压缩了10年的开发工作

从个人角度出发,Logan Kilpatrick认为谷歌真正的优势在于:

不仅在做AI基础研究,还在推进科学、几何、机器人等多领域的研究,

这些研究最后都会反馈到主线Gemini模型中。

在谷歌I/O演讲中,劈柴还展示了另一张幻灯片:在过去一年,谷歌服务器AI推理任务处理量提升了50倍

Logan Kilpatrick认为:「这说明外部开发者生态对Gemini模型的需求呈爆炸式增长。」

其实背后的关键不只是技术,而是组织结构的变革。

2023 年初,谷歌把多个AI研究团队整合到DeepMind,制定了新方向:

不再仅限于理论研究,而是要做出真正实用的模型,服务于谷歌内部与外部开发者生态。

之后,又迈出第二步,将产品团队也纳入DeepMind。这意味着:

  • DeepMind负责研发模型、推动研究;

  • 同时也打造产品并将其交付给全球用户

最近,谷歌还任命DeepMind的首席技术官Koray Kavukcuoglu担任新的高级副总裁职位——首席AI架构师。

Koray Kavukcuoglu

与研究团队密切合作,把尖端模型能力带到现实世界——

这种「前沿协作」的过程让Logan Kilpatrick个人非常享受。

这种创新的节奏非常令人兴奋,他相信这才刚刚开始。

谷歌DeepMind内部公式很简单,总结一句话

找到最优秀的人,发现基础设施优势,然后……不断发布!


参考资料:
https://www.youtube.com/watch?v=U-fMsbY-kHY&t=1676s
https://www.semafor.com/article/06/11/2025/google-names-new-chief-ai-architect-to-advance-developments


图片


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652602138&amp;idx=1&amp;sn=0a43ddc0a419e50b96d6a96b0aa7a30a&amp;chksm=f00782ebc97517ea7546916cfc3aecd70dbd7d95dcdd3f9f71ec249908d4c1329e865010fe12&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/CUkcpYhioS&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们