动态列表

  • 一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
  • AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
  • 物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
  • 刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开
  • 让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
  • 从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
  • 破解效率与成本难题:华为UCM技术推动AI推理体验升级
  • SIGGRAPH上,英伟达发布物理AI开源新技术,更新RTX Pro产品线
  • 身家25亿刀,是四家公司创始人,这位伯克利教授还在给本科生上课
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
  • AI全面挖掘微蛋白价值:首次引入合成负样本训练,剔除92%噪声,摆脱保守依赖
  • 是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
  • 东方理工·甬江论坛|新大学、新使命,邀你共启未来
  • LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
  • ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
  • 聚焦前沿,见证未来!「X·创新』产品SHOW圆满举办!
  • 刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
  • Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
  • 雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元
  • OpenAI开源霸权5天终结,百川M2一战夺冠!实测比GPT更懂中国医疗
  • 硅谷精英放弃生娃!MIT女记者揭秘:人类只是AI垫脚石,世界很快就毁灭
  • 41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
  • 2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
  • 昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周
  • 世界机器人大会:笨拙的今天,与狂奔的明天
  • 「一只手有几根手指」,你的GPT-5答对了吗?
  • 4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
  • 智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
  • 从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
  • ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
  • 脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
  • 第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
  • 机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
  • Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
  • 具身智能技术与应用论坛圆满举行,北京人形公布多项创新成果
  • ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法,让LLM学会解读蛋白质网络
  • 宇树、银河通用都在用:英伟达「物理AI」技术亮相世界机器人大会
  • 毒液抗菌搭配深度学习,千万级数据组中筛得386条备选,91.4%体外验证成功
  • 马斯克:可能失去特斯拉控制权;何小鹏:听雷军劝,全新 P7 做 24 小时耐力测试;传华为将发 AI 推理突破成果
  • AI正在掏空大脑,思想沦为残废!未来只分AI的「主人」和「奴隶」
  • 刚刚,谷歌摊牌:Genie 3让你1秒「进入」名画,人人可造交互世界!
  • 突破40年Dijkstra算法瓶颈,清华教授等颠覆教科书!斩获STOC最佳论文
  • 小红书为什么要做“漫展”?
  • 腾讯张正友:具身智能必须回答的三个「真问题」
  • token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍攀升
  • 联合理解生成的关键拼图?腾讯发布X-Omini:强化学习让离散自回归生成方法重焕生机,轻松渲染长文本图像
  • 40年后,Dijkstra算法极限再被突破,清华段然团队更快最短路径算法摘STOC最佳论文
  • GPT-5 发布后遭用户吐槽,GPT-4o 重新上线;苹果创五年多来最大单周涨幅;暑期档电影总票房破 80 亿元:《南京照相馆》超 20 亿|极客早知道
  • AI「解码」古罗马,重现千年铭文真相!DeepMind新模型再登Nature
  • Gemini再揽金牌,力压大学学霸,AI数学推理时代来了!
  • 内幕曝光:OpenAI模型坦承不会第六题,3人俩月拿下IMO金牌!
  • 实测GPT-5 Pro:别被普通版骗了!Pro才是OpenAI真正的顶级模型
  • GPT-5问题太多,奥特曼带团回应一切,图表弄错是因「太累了」
  • ARPO:智能体强化策略优化,让Agent在关键时刻多探索一步
  • ICCV 2025 | 新型后门攻击直指Scaffold联邦学习,NTU联手0G Labs揭示中心化训练安全漏洞
  • 用户痛批GPT-5,哭诉「还我GPT-4o」,奥特曼妥协了
  • 上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理
  • 银河通用亮相 2025 世界机器人大会,搭载英伟达最新 Thor 芯片,Galbot 全球首发震撼登场
  • 李想称知道哪个品牌在黑理想;比亚迪:App 将继续使用「比亚迪」原名;世界机器人大会开幕 | 极客早知道
  • 银河通用WRC首发英伟达Thor,银河太空舱世界首创城市级机器人应用
  • OpenAI o3封王,4比0横扫马斯克Grok 4!全球大模型对抗赛完美收官
  • 单机狂飙4万亿参数,国产AI「四大天王」首次合体!这台超节点鲨疯了
  • 首篇WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化
  • 维他动力Vbot:当遥控器被丢掉,才是机器狗「有生命感」的第一步?
  • 挤不动的世界机器人大会上,自变量秀出了真·通用具身智能
  • 4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉
  • 扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节
  • GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5
  • 从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
  • 上天入地,从内而外:大疆 DJI OSMO360 深度评测
  • 「贴地飞行」:大疆 ROMO 扫地机器人首发体验
  • 「油车智障」的招牌,被奥迪一脚踢开
  • GPT-5 来了,多项能力屠榜;OpenAI 给所有员工发 150 万美金奖金;特朗普喊话英特尔 CEO:必须立即辞职
  • 刚刚,奥特曼发布GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽
  • 北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA
  • 刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
  • 一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
  • OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」的第一步
  • 从能展示到能顶岗,人形机器人的「上班时刻」到了吗?
  • 行业唯一大电池旗舰性能机,iQOO Z10 Turbo+ 2199元起正式发布
  • 云计算一哥首度牵手OpenAI,大模型「选择」自由,才是终极胜利
  • 颠覆互联网的下一波浪潮:Agentic Web来了!
  • 三重激励+全周期扶持,即梦升级这个计划,让AI创作者的成长有迹可循
  • DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
  • 硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
  • 让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题
  • 谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!
  • AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》
  • 一块钱的AI,开始审判人类
  • 您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
  • 人大高瓴-华为诺亚:大语言模型智能体记忆机制的系列研究
  • 3秒级破百+820km续航,全新小鹏P7定义智能轿跑新标准
  • 傅利叶发布全新人形机器人“Care-bot”GR-3,定义"有爱的"交互新范式
  • GPT-5 发布时间定了;宝马 i 系列汽车设计主管 Kai Langer 宣布加入小米;消息称爱奇艺拟赴港上市融资 3 亿美元
  • 鼠标的未来是手环?解码肌肉信号,Meta黑科技登上Nature
  • Claude Opus 4.1代码实测惊人!OpenAI开源模型却只会写屎山?
  • 爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰
  • 全球独家首测Genie 3,实验室细节曝光超震撼!AGI最后一块拼图已实现
  • ICML2025|探索损失加权机制的本质以实现更好的LLM反学习
  • 快270倍,精度超93%,浙大侯廷军、康玉团队等全新扩散生成模型,树立蛋白质-多肽对接新标准
  • 群核科技InteriorGS数据集登顶全球开源榜首
  • Grok 新上的 AI 视频生成,自带「擦边」模式,马斯克靠「踩黄线」称霸 AI?
  • 闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
  • Token成本下降,订阅费却飞涨,AI公司怎么了?
  • ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA
  • 第十三届互联网安全大会:多智能体蜂群掀起安全与 AI 融合革命
  • 震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头
  • 就是阻击OpenAI,Claude抢先数十分钟发布Claude Opus 4.1
  • 北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向
  • OpenAI重新开源!深夜连发两个推理模型,o4-mini水平,笔记本、手机可跑
  • Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
  • 今年CJ,AI 成了游戏产业的「必答题」
  • OpenAI 完成 80 亿美元融资,估值 3000 亿;宇树发布新一代机器狗;英伟达深夜发声:不存在后门、终止开关、监控软件|极客早知道

OpenAI惊人自曝:GPT-5真「降智」了!但重现「神之一手」,剑指代码王座



  新智元报道  

编辑:KingHZ 桃子
【新智元导读】GPT-5智商测试,仅拿下了70分?全网狂吐槽「降智」背后的真相,竟是「路由」决定了模型的智能。想要解锁神级GPT-5,秘诀在于prompt。这不,医学家借助GPT-5重现了「神之一手」时刻。

GPT-5发布72小时后,一张IQ测试结果震惊了全网。

在门萨IQ测试中,GPT-5拿下了118分,离线测试70分;GPT-5 Thinking则分别获得了85分和57分。

这一结果,创OpenAI模型家族IQ测试有史以来的最低纪录。

实际上,这背后的实际原因,归咎于「路由」问题。

并非是GPT-5太笨了,而是作为一个「单体模型」,其中一个组件决定了它的智能。

类似的问题,奥特曼也曾在Reddit AMA问答中做出了回应。

他表示,内部出现了严重故障(Sev级),自动切换系统无法工作,导致GPT-5表现得像降智一样。

METR的最新报告中,可以看出GPT-5依旧处于帕累托前沿,智能呈指数级增长并未放缓。

也就是说,GPT-5还在延续Scaling Law的神话。


GPT-5很强,关键在于prompt


那些一味地吐槽GPT-5的网友们,实际上并未发掘出最新模型的潜力。

Cline人工智能主管表示,核心在于一个人的想法、品味,以及沟通方式。

对于那些具备系统思维的用户而言,GPT-5堪称革命性工具。只要肯花时间:构建完整思维框架,制定明确需求规格向模型清晰阐述。

由此,它就能自主精准执行,全程无需人工纠偏。

无独有偶,NYT畅销书作者Mark Manson也表示,所有人都在用错误的方式与GPT-5对话,关键在于掌握主动权。

这样,让它知道你可不是好糊弄的,才会给出完美答案。

举个栗子,你想要问「blueberry」有几个b,并恐吓它「答不对小心Bambi妈妈找你算账」。

此时,GPT-5根本不会犯错。

再比如,网友们吵翻的GPT-5连一个简单方程式都不会解,实际诀窍也在提示上。

当提示变成「think harder and solve」时,就可以得出正确的解。

怎样提示才算有效?有网友曝出了GPT-5系统提示,堪称一座金矿。

「神之一手」时刻


在医学领域,GPT-5已经可以媲美人类专家了。

生物医学家Derya Unutmaz在体验GPT-5之后,深刻感受到了AlphaGo的「第37步」时刻。

事情是这样的,两年前,Derya的实验室开展了一系列前沿免疫学实验,旨在调控T细胞的能量代谢。

这种免疫细胞对癌症免疫治疗、慢性病和自身免疫疾病都有重大影响。

当时,他们获得了一个令人惊艳的结果,但有个发现始终无法解释。

团队为此折腾了好几周,也只得到部分答案。

基于这些实验,Derya将未发表的数据图上传给GPT-5 Pro去分析,结果令人大吃一惊。

GPT-5仅凭如上一张图表,就准确识别出关键发现,并提供了实验方案的建议。

最不可思议的是,它提出的机制最终解释了全部结果。

Derya Unutmaz表示,这简直就是AI领域的「神之一手」的时刻。这一过程证明了,GPT-5已成为顶尖专家和真正的科研伙伴,能提供深刻洞见。

OpenAI携GPT-5剑指Anthropic王座


GPT-5虽还不是AGI,但其强大的编程能力,已经吸引了更多开发者。

另外,其全新的个性化选项和减少的「幻觉」现象,则可能为免费版ChatGPT吸引更多日常用户。

这无疑是向Anthropic发出的挑战书。

之所以这样说,原因在于:编写代码的最强AI模型,一般公认为Anthropic的Claude模型。

因此,OpenAI发布新模型时,极力强调GPT-5在编程方面的强大能力

GPT-5是我们迄今为止最强大的编程模型。在复杂前端生成和调试大型代码库方面,GPT-5表现尤为突出。  


只需一个提示,它就能直观且优雅地创造出美观、响应式的网站、应用程序和游戏,将想法转化为现实。


意图非常明显。

在新闻发布会上, 奥特曼表示,新模型不仅擅长编码,还能将软件项目从想法一步转化为可用代码。

GPT-5生成的各种程序

AI初创公司MagicPath的首席执行官Pietro Schirano称GPT-5是目前最出色的编程模型,是一个「绝佳的合作者」。他表示:

这就像电力进入千家万户,是一个「前所未有」的变革时刻,它将彻底改变我们的开发方式。


在长达一小时的直播中,OpenAI大部分时间都在展示GPT-5的编程能力,包括演示一系列基准测试结果.

Cursor、Vercel和JetBrains等还分享了GPT-5的早期测试的评价。

「AI编程」神器Cursor的首席执行官Michael Truell夸其为「使用过的最智能的编码模型」:

团队发现,GPT-5不仅表现出色、易于引导,还展现出其他模型未曾有过的独特个性。


它不仅能捕捉到难以察觉的深层错误,还能运行长时间、多轮次的后台AI智能体,完成复杂任务——这些任务往往让其他模型无从下手。


Vercel的创始人、首席执行官Guillermo Rauch,认为「GPT-5是最好的前端AI模型」:

我们在v0.dev上使用时的初步印象是,它是最好的前端AI模型,在美学感和代码质量上均达到顶尖表现,堪称独一无二。


它在复杂计算机科学与艺术感的交汇处表现出色,标志着从过去简单的代码补全到如今跨设备、跨屏幕的全栈应用的飞跃时刻。


IDE传统巨头JetBrains的首席执行官Kirill Skrygan,表示「GPT-5颠覆了编程」:

GPT-5对编码领域来说是一个革命性的突破。作为默认模型,它使JetBrains AI Assistant和编码智能体Junie的性能和质量提升了超过1.5倍。


在我们的新无代码平台Kineto上,GPT-5将设计、前端以及应用整体体验的端到端质量提升了一倍。


从数据上看,Anthropic的营收增长主要得益于其强大的编程能力。

据The Information报道,Anthropic的年营收已接近50亿美元,高于本月初的40亿美元,这反映出它作为程序员和编程应用首选的地位。

与此同时,OpenAI的年营收目前为120亿美元,这个数字则反映了其更广泛的业务和更大的规模。


未来,是智能体式推理


GPT-5发布之后,OpenAI首席研究官Mark Chen和总裁Greg Brockman一同在TBPN最新采访中,谈论了最新模型一些研发爆点。

Mark Chen最先提到了,GPT-5的训练关键在于合成数据。

它的成功意味着,完全突破了互联网数据枯竭的限制,并且在核心领域实现更全面的知识覆盖。

OpenAI当前在做的,是将世界引向「智能体式推理」的时代,GPT-5是这一转变的关键。

通过更快、更智能的模型减少用户干预,让AI无缝地融入日常和专业使用中。

Mark强调,OpenAI多年来致力于推理模型,但以往接口笨拙,如在GPT-4和o1之间切换。

如今,GPT-5通过速度优化,实现了无缝整合,让用户无需等待长推理过程。

他详细举例说道,以往模型如o1在所有任务上提供更好答案,但太慢。GPT-5结合了推理和非推理能力,成为「一站式商店」(one-stop shop)。

尤其是,后训练团队的贡献,让模型在编码等领域成为「怪物」。

当被问及模型命名时,Mark笑称数字命名「疯狂」,但确实奏效了。

他表示,GPT-5在创意协作、软件工程方面的能力,确实超越了GPT-4.5,而且更快、更便宜。

GPT-5像给ChatGPT「一台电脑」,包括Python REPL、浏览器。模型能零样本学习新工具,这一过程就像人类体验新工具一样。

在部分需要创造性的任务中,GPT-5能够给出惊喜的解法。下一步的目标是,将LLM能力提升到「理论框架」层面,提出新假设、辅助科研创新。

多线并行,随时发货


在OpenAI内部,团队会在不同时间尺度上运作:从探索想法到转化,再到旗舰模型发布。

不仅是单一技术的突破,而是多轴进步。

Mark将其描述成「探索与执行」的pipeline,强调了公司模型快速迭代的能力。

我们给它空间去成长,一旦准备好,就直接发货。


目前,OpenAI模型以算法优化为主,同时吸收了硬件和推理架构改进的成果,并借鉴开源社区在推理加速上的经验。

最后,他还提到了ChatGPT处理了全球约71%的大模型查询,并提供了独特的使用数据洞察。

Mark表示,不只依赖DUA或点赞数据,就是为了避免「迎合性」偏差,而要挖掘隐性行为信号,指导模型去改进。

GPT-5已是AI「自我迭代」


Greg Brockman经历了 GPT-1 到 GPT-5 的每一次发布,总结了每个版本给他的感受:

  • GPT-1:用公开数据训练Transformer,证明「预训练有用」。

  • GPT-2:第一次觉得「生成的东西挺酷」,有独角兽故事。

  • GPT-3:刚好跨过「有人愿意用」的门槛,但可靠性差。

  • GPT-4:真正具备现实可用性,开始能写代码、做健康问答。

  • GPT-5:在可靠性、实用性、代码能力上设定了全新标准,软件工程将被彻底变革。


2019年底,GPT-3出来了。OpenAI意识到必须打造一个产品,才能继续推进使命,筹集资金。

他们决定打造API,让别人自己去探索用途。

2020年年初,Greg Brockman的团队四处奔波,试图找到愿意尝试API的客户。

到2020年中,OpenAI才把API推向市场,而ChatGPT是2022年11月才发布。

当时,OpenAI考虑把ChatGPT叫「Chat with GPT-3.5」。ChatGPT还有个前身产品叫WebGPT,也是基于GPT-3.5。整个2022年,OpenAI基本上是在付钱让人用ChatGPT的前身:用户不会付钱给OpenAI,OpenAI得付钱给他们用。

什么时候意识到ChatGPT会爆?

对Greg Brockman来说,真正触动他的时刻是完成GPT-4训练的时候。

那是2022年8月8日,OpenAI完成了GPT-4的初步后训练。虽然有一堆bug,但创造力特别惊人,真的非常有趣。

OpenAI花了大约一年半的时间,才让模型的创意写作能力达到当初那个有bug的版本的水平。

那一刻OpenAI意识到,这个模型不仅能完成特定任务的后训练,还能泛化,表现出智能行为,即使没有直接针对这点训练。这显然是个杀手级应用。

于是把原计划的GPT-4 API发布推迟,先把ChatGPT做出来,2022年11月上线。

回头看,GPT-3.5其实已经是当时社会没见过的「可用模型」,只是在OpenAI眼里全是缺点。

而GPT-3.5引发了OpenAI的商业范式革命:从「付费请人测试」到「用户主动订阅」的根本性转变。

Ben Thompson称OpenAI为「意外诞生的消费级公司」:ChatGPT发布后72小时内突破百万用户,形成现象级需求。

很多人在事后说,OpenAI一开始就旨在证明「Scaling」是AI进步的关键,但其实几乎是反过来的:Scaling是他们尝试了很多无效方法后,唯一奏效的东西。

而现在OpenAI已经看到AI模型正在协助创造下一代模型,并能监督那些对人类来说过于复杂的工作。

Greg Brockman表示:我们不应该为了美观而刻意优化 CoT(思考链),也不用强迫模型隐藏其推理过程,应该让它们自由地展示自己的「想法」。

Greg Brockman曾提到,随着模型能力的提升,它们不仅能完成简单的任务,还能胜任一些复杂的、人类难以把控的工作。

这种「可扩展的监督」概念,正是为了解决这一挑战而提出的:利用强大的 AI 模型来为复杂任务提供可靠的反馈和监督,或者通过「批评模型」协助人类专家,从而更轻松地进行监督。这确保了即使 AI 系统变得更加智能、更复杂,它们也能与人类价值观保持一致,并得到安全的管理。

参考资料:
https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown  
https://x.com/thealexbanks/status/1953867094648385990 
https://x.com/slow_developer/status/1954097563981812149 
https://x.com/tbpn/status/1954249389796651184  
https://www.youtube.com/watch?v=gaImbWPGgtU


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652618616&amp;idx=1&amp;sn=8fbd2b377e4951883f6ed0add09a9f8e&amp;chksm=f0bc3ddb5bd903ace9e74f64701c985ffb005f8ae3e5a919cd31fceb1668b72f4b58bf259971&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/0tw1USfAWH&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们