动态列表

  • 九天大模型大变身:性能狂飙35%!还能一键P大象
  • 万亿参数狂欢!一文刷爆2025年七大顶流大模型架构
  • 豪拒15亿美金天价Offer,硅谷最狂AI巨星身份曝光!小扎、奥特曼抢破头
  • 兔子蹦迪疯传,5亿观看!全球恐慌:一段AI视频把全人类拉入虚拟现场
  • 全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」
  • 图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
  • GUI定位还在玩「非黑即白」?浙大团队提出GUI-G²,显著提升GUI智能体定位性能
  • OpenAI IMO金牌团队爆料:AI拒绝作答第六题
  • ​特斯拉车祸,被判赔偿超 2 亿美元;传 OpenAI 将推 10 美元「亲民订阅」;影石刘靖康:祝贺同行大疆推全景相机
  • GPT-5难产内幕曝光!核心团队遭挖空,推理魔咒难破,靠英伟达续命
  • 哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
  • Hinton预言成真,美国大学生掀起本科辍学潮!月入万刀修马桶,不怕AI裁员
  • 天才美少女的开挂人生,首次揭晓!11岁自学微积分,17岁推翻40年难题
  • 19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
  • 通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
  • ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
  • 刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
  • 一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
  • 多模态后训练反常识:长思维链SFT和RL的协同困境
  • 库克打气苹果 AI:不拼首创,自信能主导市场;微信提现手续费下调至 0.01 元;Manus 推 Wide Research
  • 微软破4万亿,被裁员工扎心!70级工程师天价薪酬曝光:入职大礼包2700万
  • 港科大发布「大模型越狱攻击」评估基准,覆盖37种、6大类别方法
  • 刚刚,OpenAI神秘开源模型泄露!「闪现」1分钟被删,配置被网友扒光
  • 24岁辍学博士,小扎捧2.5亿薪酬包亲自上门抢人!AI顶薪已让NBA汗颜
  • 奕派科技重磅发布“未来之翼”战略,2026款东风奕派eπ008限时先享价17.36万元
  • 一切竞争,都变成了「AI 竞争」
  • 途深智合推出旗下AI科研品牌--追梦AI
  • 模型共享、数据互通、设施互连,上海人工智能实验室上线「书生」科学发现平台
  • 一次中稿10篇ACL25,通义实验室 代码智能&对话智能团队 在研究什么
  • 联合三大蛋白质模型,仅需4~6周,定制癌细胞特效「识别器」
  • 全球首款通用AI科研智能体问世:我一个文科生用它写了份CRISPR基因编辑综述报告
  • 中国在AI领域超越美国已是板上钉钉?吴恩达:美国无法保持领先
  • 驯服复杂表格:九天重磅开源,开启「人与表格对话」智能新时代
  • 思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
  • 超聚变亮相WAIC 2025 重构数智化平台,共建智能体时代
  • Manus大升级,100多个智能体并发给你做任务
  • 挖人上瘾的Meta又被员工吐嘈:不帮忙宣传项目,开源只会越来越糟
  • 机器人不只会抓和放!北京大学X银河通用「世界-动作模型」赋能全面泛化的非抓握技能
  • 火山引擎作为「AI 原生」基础设施,变得更强了
  • 英伟达回应「芯片后门」:不存在后门;大疆推 Osmo 360 全景相机,2999元;微软成第二家 4 万亿美元公司
  • WAIC唯一指定C位,AI「国家队」又赢麻了!秒懂Hinton伦敦腔,现场杀疯老外狂点赞
  • 首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
  • 小扎一夜反水,背刺开源!亲手葬送「Llama神话」,股价大涨12%
  • GPT-5发布倒计时?全网泄露来了:微软Copilot憋大招,GPT-5上线最后冲刺!
  • 17.98 万的乐道 L90,有多少蔚来的诚意,就有多少李斌的「求生欲」
  • ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
  • 当提示词优化器学会进化,竟能胜过强化学习
  • ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
  • 谷歌发布AlphaEarth基础模型:构建「地球版ChatGPT」,融合多源数据,实现10米级地球观测
  • 微软花重金做的Copilot,居然被WPS一个按钮给秒了?
  • 定义科学智能2.0:在WAIC,复旦与上智院的答案是开放协作、科学家为中心,以及一个「合作伙伴」
  • OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
  • VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
  • XREAL One Pro 体验:AR 老炮的自我革命
  • WAIC UP! 之夜:一场关于AI与人类未来的星空思辨
  • AI 智能体,让每个人可以像科学家一样工作和思考
  • 刚刚,扎克伯格公开信:Meta不会开源全部模型
  • 没敲过代码的我,半小时「聊」出一个能用能分享的「小程序」
  • 把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
  • 32.18万起!理想i8正面「硬刚」特斯拉Model X
  • 智能驾驶最大的障碍,不是懂车帝
  • 刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
  • 小米青年公寓正式启用,1999 元/月;Meta AI 数据中心投入 720 亿美元;NBA 引入「AI 篮球」
  • AI百人榜刷屏,小扎照单全收?辛顿Ilya师徒霸榜,第二名竟是本科生
  • 炮轰黄仁勋,决裂奥特曼!1700亿美元估值背后,硅谷最不好惹的AI狂人
  • 别只盯着李飞飞!AI的「3D数据底座」已被这家中国公司悄悄建好
  • 无需准确传感信号!轻松搞定「多段软体机械臂」复杂位姿与形状控制
  • Nature 子刊 | DeepSeek落户超750家医院,清华团队剖析AI医疗监管隐忧
  • P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
  • 开出10亿美元天价,小扎挖人Mira创业公司惨遭拒:俺们不差钱
  • 当智能成为主要生产资料,硅基经济学引爆「AI+金融」
  • SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
  • 刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
  • 凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o
  • AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
  • 字节辟谣「豆包汽车」:无造车计划;英伟达市值突破4.3 万亿美元;传特斯拉将推「低价赛博皮卡」
  • 科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
  • 全球首次,「AI记忆」开源落地!MIRIX同步上线APP
  • GPT-5基准测试泄露,被曝两天后发布?打Minecraft震撼开挂网友直呼封神
  • 马斯克偷偷憋了个大招!Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
  • 理想i8正式发布:首款纯电SUV,售价32.18万元起
  • WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
  • 通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
  • 这家国内公司,在给具身智能技术栈做「通解」
  • ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
  • 全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发
  • LeCun出手,造出视频世界模型,挑战英伟达COSMOS
  • 联合十余家国产生态,商汤大装置发布“算力Mall”,打造算力超级市场
  • 用说的就能做 App,这家公司想做 AI 时代的 ins
  • 从数字人到「有温度的」机器人,京东把 AI 深度应用的路线图「摸透」了
  • 开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
  • 共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
  • 阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
  • 不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果
  • WAIC2025,斑马智行元神AI获国际测评机构全项第一
  • 蛋白质基座的GPT时代来了?AMix用Test-time Scaling让蛋白质设计迈向通用智能
  • Allegro-FM:剑指分子动力学基础模型,零样本预测89种元素及复杂反应
  • AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了
  • GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力,破解出海成本与效率难题
  • WAIC 2025: 斑马智行元神AI大模型,获全球机构测评第一
  • 国内首例!由钉钉AI平台训练的豆蔻大模型通过妇产科主任医师考试
  • 闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
  • 智谱发布新一代基座模型GLM-4.5:开源、高效、低价,专为智能体而生
  • AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay
  • WAIC 2025前探:AI硬件如何改变我们的日常生活
  • 这届WAIC,无问芯穹发布了三个「盒子」
  • 「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
  • EvaLearn:AI下半场的全新评测范式!
  • 蚂蚁数科发布金融推理大模型 助力金融机构加速落地智能体应用
  • 2025 WAIC容联云AI AGENT论坛启幕,以技术引擎驱动产业智能跃迁
  • 商汤大装置亮相WAIC 2025,多项标志性成果打造AI基础设施新范式
  • 广大、清华等开发EdgeAIGC,让边缘缓存命中率飙升41%,AIGC延迟与成本双降
  • WAIC直击|快手可灵AI引领「生成式AI应用元年」,累计生成超2亿视频
  • 硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
  • ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
  • 扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
  • 多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
  • 具身智能,腾讯「低调入局」
  • 首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
  • 特斯拉廉价 Model Y 减配内饰曝光;Firefox 终止中国账户运营;宇树王兴兴:经常偷懒,用 AI 写代码|极客早知道

GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防

赢了的才是「GPT-5」。

GPT-5 迟迟未现身,网友们开始制作各种梗图「吐槽」:

image.png


image.png

其实,这几天关于 GPT-5 的传言就没消停。

先是有网友在 macOS ChatGPT 应用中发现了 GPT-5-Auto 和 GPT-5-Reasoning 模型的踪迹:

image.png

再是网友爆料微软 Copilot Cursor 也已经悄咪咪接入测试GPT-5。

8 月 1 日,The Information 更是洋洋洒洒写了一篇名为《Inside OpenAI’s Rocky Path to GPT-5》的长文,扒出了 GPT-5 的更多内幕。

以下是省流版:

  • GPT-5 将比其前代产品有真正的改进,但无法与早期 GPT 品牌型号之间的性能飞跃相提并论。

  • OpenAI 在今年面临了一系列技术问题,这些问题威胁到了 o3 和其他模型的进展。

  • Meta 挖人把 OpenAI 高管搞「破防」,在 Slack 中向上司公开抱怨团队变动。

接下来,我们就详细来吃个瓜。

GPT-5 有改进,但性能飞跃大不如前

去年 12 月,OpenAI 展示了 Test-Time Scaling 的测试结果,成为后预训练时代大模型能力的关键突破口。该测试表明,当 AI 拥有更多时间和计算能力来处理任务时,其性能会持续增加,这一技术路径在 OpenAI-o1 和 DeepSeek-R1 的实践中已经初显威力。看起来,广大 ChatGPT 用户会被新 AI 的强大功能所震撼。

然而,兴奋劲并没有持续太久。

据两位参与开发的人透露,当 OpenAI 的研究人员将这款新 AI 改造成基于聊天的版本 o3,使其能够响应 ChatGPT 用户的指令时,之前测试基准上的性能提升基本消失了。

这只是 OpenAI 今年面临的大量技术挑战的一个例子,越来越多的困难正在减缓 AI 发展的步伐,甚至可能影响到 AI 爆款应用 ChatGPT 业务。

在即将发布的 GPT-5 上,OpenAI 研究人员据说已经找到了方法。

据消息人士和 OpenAI 内部工程师称,OpenAI 即将发布的一代旗舰 AI 模型 GPT-5,在编程、数学等方面的能力有很大提升。

一个消息人士表示,新模型在编写应用程序代码时,能够更好地添加功能,使其更易于使用且更美观。他表示,GPT-5 在驱动 AI 智能体以极少的人工监督处理复杂任务方面也比其前代产品做得更好。例如它可以遵循复杂的指令,确定自动客服何时应该退款的规则列表,此前的模型需要先测试几个棘手的客户案例(即边缘案例),才能处理此类退款。

另一位知情人士表示,这些改进无法与早期 GPT 模型的性能飞跃相提并论,例如 2020 年的 GPT-3 和 2023 年的 GPT-4 之间的改进。OpenAI 在过去 12 个月中经历的性能提升放缓表明,它可能很难超出其最大的竞争对手,至少在 AI 能力方面是这样。

OpenAI 目前的模型通过 ChatGPT 和各类应用已经创造了巨大的商业价值,即使是渐进式的改进,都会增加客户需求。这些改进还能让投资者有信心为 OpenAI 未来三年半内斥资 450 亿美元购买 GPU,开发和运行产品的计划提供资金。

提升自动化编码能力成 OpenAI 首要任务

最近的进展也帮助解释了为什么 OpenAI 高管最近几周告诉一些投资者,他们认为公司可以实现「GPT-8」这一目标。这一表态与 CEO 山姆・奥特曼公开的言论一致,他表示,凭借现有的技术知识,OpenAI 有望创造出与最聪明人类能力相媲美的人工智能技术,即 AGI。

虽然距离实现 AGI 仍有很长的路要走,但即将发布的 GPT-5 模型可能具有一些除了更好的编码和推理之外的其他吸引力。

据一位知情的微软员工透露, 微软拥有 OpenAI 知识产权的独家使用权,该公司的一些领导层告诉员工,他们测试该模型的结果显示,GPT-5 能够在不消耗更多计算资源的情况下,生成更高质量的编码和其他基于文本的答案。

该人士表示,部分原因是它能够比之前的模型更好地判断哪些任务需要相对更多或更少的计算资源。

OpenAI 的内部评估显示, 在去年竞争对手 Anthropic 率先开发并向软件开发人员和 Cursor 等编码助手销售此类模型后,提升人工智能自动执行编码任务的能力已成为 OpenAI 的首要任务。

OpenAI 员工认为,自动编码不仅对公司业务至关重要, 对于实现人工智能研究人员自身工作的自动化也至关重要 。

组织重组的压力

OpenAI 的进展并非一帆风顺,因为其研究人员和管理层今年都面临着新的压力。

首先是和微软之间微妙的关系。

尽管微软是 OpenAI 最大的外部股东,并且根据双方的合同协议,微软有权在 2030 年之前使用 OpenAI 的一些技术,但一些 OpenAI 的高级研究人员并不赞同将他们的创新和发明交给微软。

在财务方面,微软和 OpenAI 也有着非常紧密的合作关系,但在合作的具体条款上存在争议,双方都在要求对方做出一些让步。

OpenAI 希望通过重组其营利性部门,来为将来上市做准备。虽然双方在一些细节上仍然存在不确定性,但已经有一些重要的方面达成了初步的共识,比如微软可能会在 OpenAI 重组后获得约 33% 的股权

其次就是 Meta 不断「撬墙角」。

最近,Meta 狠砸真金白银,从 OpenAI 挖去了十多位研究人员,其中一些还曾参与了 OpenAI 近期改进技术的工作。

这些人才流失和随之而来的人员调整,给 OpenAI 的管理层带来了压力。

上周,OpenAI 的研究副总裁 Jerry Tworek 在公司内部的 Slack 中,向他的上司 Mark Chen 抱怨了团队的变动,而许多同事都看到了他的抱怨。Tworek 表示,他必须休息一周来重新评估情况,但后来他并没有休假。

Orion 模型的「失利」

虽然 OpenAI 在商业上取得了一些进展,但公司内部对能否持续改进 AI 并保持领先地位仍然存在一些担忧,特别是面对像 Google、xAI 和 Anthropic 这样的资金雄厚的竞争对手。

2024 年下半年,OpenAI 开发了一个名为 Orion 的模型,原计划将其作为 GPT-5 发布,并预计其性能会比现有的 GPT-4o 模型更强。然而,Orion 并未达到预期的提升效果,因此 OpenAI 将其发布为 GPT-4.5 模型,结果这个模型的影响力似乎也没多大。

Orion 未能成功的部分原因在于其预训练阶段的局限性。预训练是模型开发的第一步,模型需要处理大量数据以便理解不同概念之间的联系。OpenAI 在面临高质量数据匮乏的同时,还发现对 Orion 模型做的优化在模型较小的时候有效,但当模型规模增大时,这些优化就不再有效了。

o3 实力强劲得益于更多的英伟达芯片

此外,OpenAI 的研究人员还面临其他问题。

 去年,OpenAI 开发了推理模型,这些模型在获得更多计算资源以处理答案时表现得更好。这些模型源自 2023 年末的一项名为 Q * 的突破,这一突破震惊了公司的研究人员,因为它能够解决之前从未见过的数学问题。到 2024 年,推理模型似乎帮助公司克服了预训练阶段性能增长放缓的问题。

 去年秋天,OpenAI 将第一个主要推理模型变成了 o1。此次发布为 OpenAI 在 AI 领域赢得了新的影响力,并为依赖推理模型的 AI Agent 开发奠定了基础.

据参与开发的人士透露,OpenAI 在 2024 年底之前创建了下一个推理模型 o3,其基础大语言模型与 o1 相同,都是 GPT-4o。尽管 o3 和 o1 拥有相同的模型血统,但 o3 的母模型(也称为教师模型)在理解各种科学领域及其他领域方面,相比 o1 的母模型取得了显著的进步。

进步的一个原因是 OpenAI 决定使用更多的英伟达芯片服务器来开发 o3 的母模型,这本质上为模型提供了更强的处理能力,以理解复杂的概念。

另一个原因是,研究人员赋予了 o3 母模型搜索网络或从代码库中获取信息的能力,这也帮助其性能超越了 o1 的母模型。

两个月前开发的模型都称不上 GPT-5

OpenAI 公开分享了针对该模型优势的特殊测试结果,不仅登上了全球头条,还在社交媒体上引发了疯狂的炒作,但随后现实摆在了面前。

参与开发的人员表示,当 OpenAI 将 o3 母模型转换为能让人们提问的 ChatGPT 版本(也称为学生模型)时,其收益显著下降,甚至比 o1 表现好不了多少。他们表示,当 OpenAI 创建商用 API 的模型版本时,也出现了同样的问题。

有知情人士表示,造成这种情况的原因之一与该模型理解概念的独特方式有关,这可能与人类的沟通方式不同。他表示,创建基于聊天的版本实际上会降低原始模型的水平,因为它需要被迫使用人类语言而不是自己的语言。

我们知道,推理模型在 ChatGPT 中「思考」如何解决问题时有时会出现的胡言乱语,就反映了一些沟通差异。

image.png

据另一位知情人士透露,该公司也没有花费太多精力以能与人类更好沟通的目标进行训练。

尽管有所退步,OpenAI 今年公开发布的 o3 推理模型仍然帮助核聚变和病原体检测等领域的科学家提出了新的假设和实验进行测试。

然而,大语言模型和 ChatGPT 中的模型并没有像 OpenAI 高管和研究人员预期的那样顺利。奥特曼告诉员工,o 系列模型似乎也让 ChatGPT 的客户感到困惑,因此该公司恢复了原来 GPT 模型的命名规律。

据一位参与 GPT-5 开发的人士透露,就在 6 月份由于技术问题,OpenAI 正在开发的模型似乎都不足以被贴上 GPT-5 的标签。

GPT-5 的技术,还有最后的王牌

尽管如此,OpenAI 仍有一招:据一位知情人士透露,他们一直在开发一种研究人员称之为「通用验证器」(universal verifier)的东西,可以自动执行确保模型在强化学习过程中生成高质量答案的过程。这个过程本质上是让一个大语言模型使用各种来源的研究来检查和评分另一个模型的答案。

今年夏初,OpenAI 的未公开模型实现 IMO 金牌成绩后,高级研究员 Alexander Wei 在 X 上表示,其一直在使用的强化学习方法是「通用的」,这意味着它也可以验证更主观类别中答案的质量。

alexander wei.png

这些进步似乎也在帮助 OpenAI 开发 GPT-5,GPT-5 在软件编程等更易验证的领域和创意写作等更主观的领域都表现出了进步。

包括 xAI 和谷歌在内的其他公司也极为重视强化学习,将其视为改进 AI 模型的有前景的技术。OpenAI 强化学习部门负责人 Tworek 最近公开表示,他赞同 OpenAI 模型背后的强化学习系统才是通用人工智能(AGI)的真正构成要素。

OpenAI 即将发布的 GPT-5 被人们寄予厚望。山姆・奥特曼上周在与喜剧演员 Theo Von 的播客中大肆宣传 GPT-5 的功能,并介绍了该模型如何轻松回答他不理解的问题。奥特曼表示,「GPT-5 几乎在所有方面都比我们更聪明。」

也正是因为前景不错,OpenAI 在最新一轮的融资上进展非常顺利。

新一轮融资,风投抢着买单

据《纽约时报》本周五报道,OpenAI 刚刚又融资了 83 亿美元,估值达到 3000 亿美元。这笔交易是 OpenAI 今年筹集 400 亿美元资金的更广泛战略的一部分。

据报道,这轮融资超额完成,比原计划提前了几个月。OpenAI 最初在 3 月份从风投公司筹集了 25 亿美元,当时该公司宣布计划在由软银领投的一轮融资中筹集 400 亿美元。OpenAI 原计划在年底前再融资 75 亿美元,但由于投资者在强劲增长的背景下争相加入其股权结构,OpenAI 最终拿到了便宜。

ChatGPT 的每周活跃用户超过 7 亿,推动了 OpenAI 的年收入已经接近 130 亿美元,预计到年底将达到 200 亿美元。此外加上美国政府的《AI Action Plan》以及与微软的谈判,这些都可能帮助这家大号初创公司实现年度净盈利的目标。

本轮融资是由 Dragoneer Investment Group 领投的,其投入金额高达 28 亿美元。许多新投资者也参与了融资,包括私募股权巨头黑石集团和 TPG,共同基金管理公司普信(T. Rowe Price),其他参与者包括 Altimeter Capital、Andreessen Horowitz、Coatue Management、D1 Capital Partners、Fidelity Management、Founders Fund、红杉资本、老虎环球基金和 Thrive Capital。

据称,OpenAI 的一些早期投资者还对他们在本轮融资中获得的资金分配较少感到沮丧。

参考内容:

https://www.theinformation.com/articles/inside-openais-rocky-path-gpt-5

https://www.nytimes.com/2025/08/01/business/dealbook/openai-ai-mega-funding-deal.html

]]>

联系我们