动态列表

一觉醒来，GitHub没了？CEO辞职，微软接管，开发者天塌了
AI全国榜单爆冷，全网吃瓜大狂欢！这家黑马竟靠DeepSeek杀进全国TOP 2
物理学「AlphaGo时刻」？40年未竟之事被AI一举攻破，顶尖物理学家集体傻眼
刚刚，商汤内部两万字复盘曝光：多模态通往AGI核心路线首次公开
让强化学习快如闪电：FlashRL一条命令实现极速Rollout，已全部开源
从物竞天择到智能进化，首篇自进化智能体综述的ASI之路
破解效率与成本难题：华为UCM技术推动AI推理体验升级
SIGGRAPH上，英伟达发布物理AI开源新技术，更新RTX Pro产品线
身家25亿刀，是四家公司创始人，这位伯克利教授还在给本科生上课
商汤王晓刚：世界模型将加快AI从数字空间进入物理世界，「悟能」想做那个桥梁
AI全面挖掘微蛋白价值：首次引入合成负样本训练，剔除92%噪声，摆脱保守依赖
是「福尔摩斯」，也是「列文虎克」，智谱把OpenAI藏着掖着的视觉推理能力开源了
东方理工·甬江论坛｜新大学、新使命，邀你共启未来
LLM总是把简单任务复杂化，Karpathy无语：有些任务无需那么多思考
ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
聚焦前沿，见证未来!「X·创新』产品SHOW圆满举办!
刚刚，OpenAI拿下IOI金牌，仅次于前五名人类选手！参赛推理模型才夺得IMO金牌
Lumina-mGPT 2.0：自回归模型华丽复兴，媲美顶尖扩散模型
雷军：小米YU7改名，被误会是丐版；传淘宝闪购周末峰值超美团；低价 MacBook 或年底亮相，599 美元
OpenAI开源霸权5天终结，百川M2一战夺冠！实测比GPT更懂中国医疗
硅谷精英放弃生娃！MIT女记者揭秘：人类只是AI垫脚石，世界很快就毁灭
41个榜单SOTA！智谱最新开源GLM-4.5V实测：看图猜地址、视频秒变代码
2025全球大模型应用报告：红海混战「忠诚度」瓦解，用户脚踏4.7条船！
昆仑万维发布新模型 SkyReels-A3，开启五天技术发布周
世界机器人大会：笨拙的今天，与狂奔的明天
「一只手有几根手指」，你的GPT-5答对了吗？
4D空间智能：AI如何一步步「看懂」时空结构？一篇综述解析通往四维世界的五大层次
智谱终于发布GLM-4.5技术报告，从预训练到后训练，细节大公开
从捍卫者到引路人，上交&上海AI Lab提出LEGION：不仅是AI图像伪造克星，还能反哺生成模型进化？
ICCV 2025 | 机器人自主探索未知复杂空间？GLEAM破解主动探索建图的泛化难题
脑子比不过AI，手也要沦陷了？这只灵巧手看得我有点慌
第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启，技术解析 + 资源对接一站式平台重磅来袭！
机器人上下文协议首次开源：阿里达摩院一口气放出具身智能「三大件」
Attention Sink产生的起点？清华&美团首次揭秘MoE LLM中的超级专家机制
具身智能技术与应用论坛圆满举行，北京人形公布多项创新成果
ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法，让LLM学会解读蛋白质网络
宇树、银河通用都在用：英伟达「物理AI」技术亮相世界机器人大会
毒液抗菌搭配深度学习，千万级数据组中筛得386条备选，91.4%体外验证成功
马斯克：可能失去特斯拉控制权；何小鹏：听雷军劝，全新 P7 做 24 小时耐力测试；传华为将发 AI 推理突破成果
AI正在掏空大脑，思想沦为残废！未来只分AI的「主人」和「奴隶」
刚刚，谷歌摊牌：Genie 3让你1秒「进入」名画，人人可造交互世界！
突破40年Dijkstra算法瓶颈，清华教授等颠覆教科书！斩获STOC最佳论文
小红书为什么要做“漫展”？
腾讯张正友：具身智能必须回答的三个「真问题」
token危机解决？扩散模型数据潜力3倍于自回归，重训480次性能仍攀升
联合理解生成的关键拼图？腾讯发布X-Omini：强化学习让离散自回归生成方法重焕生机，轻松渲染长文本图像
40年后，Dijkstra算法极限再被突破，清华段然团队更快最短路径算法摘STOC最佳论文
GPT-5 发布后遭用户吐槽，GPT-4o 重新上线；苹果创五年多来最大单周涨幅；暑期档电影总票房破 80 亿元：《南京照相馆》超 20 亿｜极客早知道
AI「解码」古罗马，重现千年铭文真相！DeepMind新模型再登Nature
Gemini再揽金牌，力压大学学霸，AI数学推理时代来了！
内幕曝光：OpenAI模型坦承不会第六题，3人俩月拿下IMO金牌！
实测GPT-5 Pro：别被普通版骗了！Pro才是OpenAI真正的顶级模型
GPT-5问题太多，奥特曼带团回应一切，图表弄错是因「太累了」
ARPO：智能体强化策略优化，让Agent在关键时刻多探索一步
ICCV 2025 | 新型后门攻击直指Scaffold联邦学习，NTU联手0G Labs揭示中心化训练安全漏洞
用户痛批GPT-5，哭诉「还我GPT-4o」，奥特曼妥协了
上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理
银河通用亮相 2025 世界机器人大会，搭载英伟达最新 Thor 芯片，Galbot 全球首发震撼登场
李想称知道哪个品牌在黑理想；比亚迪：App 将继续使用「比亚迪」原名；世界机器人大会开幕 | 极客早知道
银河通用WRC首发英伟达Thor，银河太空舱世界首创城市级机器人应用
OpenAI o3封王，4比0横扫马斯克Grok 4！全球大模型对抗赛完美收官
单机狂飙4万亿参数，国产AI「四大天王」首次合体！这台超节点鲨疯了
首篇WebAgents综述：大模型赋能AI Agent，实现下一代Web自动化
维他动力Vbot：当遥控器被丢掉，才是机器狗「有生命感」的第一步？
挤不动的世界机器人大会上，自变量秀出了真·通用具身智能
4比0横扫Grok 4，o3强势夺冠，首届大模型对抗赛结果出炉
扩散LLM推理新范式：打破生成长度限制，实现动态自适应调节
GPT-5真的拉胯吗？机器之心一手实测，网友：还我4o、还我4.5
从Debugger到Developer : 低代码时代新基准NoCode-bench，SWE-Bench作者力荐
上天入地，从内而外：大疆 DJI OSMO360 深度评测
「贴地飞行」：大疆 ROMO 扫地机器人首发体验
「油车智障」的招牌，被奥迪一脚踢开
GPT-5 来了，多项能力屠榜；OpenAI 给所有员工发 150 万美金奖金；特朗普喊话英特尔 CEO：必须立即辞职
刚刚，奥特曼发布GPT-5！人人免费用「博士级」智能，基准图错误遭全网吐槽
北大、字节跳动联手发布SWE-Swiss：一把修复代码Bug的「瑞士军刀」，完整配方直指开源SOTA
刚刚，小红书开源了首个多模态大模型dots.vlm1，性能直追SOTA！
一夜颠覆Sora神话，H200单卡5秒出片！全华人团队开源AI引爆视频圈
OpenAI GPT-5 发布：模型能力全面「屠榜」，构建「超级智能」的第一步
从能展示到能顶岗，人形机器人的「上班时刻」到了吗？
行业唯一大电池旗舰性能机，iQOO Z10 Turbo+ 2199元起正式发布
云计算一哥首度牵手OpenAI，大模型「选择」自由，才是终极胜利
颠覆互联网的下一波浪潮：Agentic Web来了！
三重激励+全周期扶持，即梦升级这个计划，让AI创作者的成长有迹可循
DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO
硬核拆解大模型，从 DeepSeek-V3 到 Kimi K2 ，一文看懂 LLM 主流架构
让AI读懂「言外之意」：AI4SG团队发布首个心理健康污名语料库，破解隐性偏见识别难题
谷歌开源DeepPolisher，基因组组装错误率减半，Jeff Dean：令人振奋！
AI 能造世界了？谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》
一块钱的AI，开始审判人类
您猜怎么着？Grok 4进决赛，大模型对抗赛Gemini全军覆没，马斯克「装」起来了
人大高瓴-华为诺亚：大语言模型智能体记忆机制的系列研究
3秒级破百+820km续航，全新小鹏P7定义智能轿跑新标准
傅利叶发布全新人形机器人“Care-bot”GR-3，定义"有爱的"交互新范式
GPT-5 发布时间定了；宝马 i 系列汽车设计主管 Kai Langer 宣布加入小米；消息称爱奇艺拟赴港上市融资 3 亿美元
鼠标的未来是手环？解码肌肉信号，Meta黑科技登上Nature
Claude Opus 4.1代码实测惊人！OpenAI开源模型却只会写屎山?
爆冷！首届大模型争霸，Grok 4下出「神之一手」？DeepSeek、Kimi惨遭淘汰
全球独家首测Genie 3，实验室细节曝光超震撼！AGI最后一块拼图已实现
ICML2025｜探索损失加权机制的本质以实现更好的LLM反学习
快270倍，精度超93%，浙大侯廷军、康玉团队等全新扩散生成模型，树立蛋白质-多肽对接新标准
群核科技InteriorGS数据集登顶全球开源榜首
Grok 新上的 AI 视频生成，自带「擦边」模式，马斯克靠「踩黄线」称霸 AI？
闹玩呢！首届大模型对抗赛，DeepSeek、Kimi第一轮被淘汰了
Token成本下降，订阅费却飞涨，AI公司怎么了？
ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架，指标全面碾压SOTA
第十三届互联网安全大会：多智能体蜂群掀起安全与 AI 融合革命
震撼，世界模型第一次超真实地模拟了真实世界：谷歌Genie 3昨晚抢了OpenAI风头
就是阻击OpenAI，Claude抢先数十分钟发布Claude Opus 4.1
北大、蚂蚁三个维度解构高效隐私保护机器学习：前沿进展+发展方向
OpenAI重新开源！深夜连发两个推理模型，o4-mini水平，笔记本、手机可跑
Discrete Tokenization：多模态大模型的关键基石，首个系统化综述发布
今年CJ，AI 成了游戏产业的「必答题」
OpenAI 完成 80 亿美元融资，估值 3000 亿；宇树发布新一代机器狗；英伟达深夜发声：不存在后门、终止开关、监控软件｜极客早知道

OpenAI惊人自曝：GPT-5真「降智」了！但重现「神之一手」，剑指代码王座

2025-08-10未知作者来源

新智元报道

编辑：KingHZ 桃子

【新智元导读】GPT-5智商测试，仅拿下了70分？全网狂吐槽「降智」背后的真相，竟是「路由」决定了模型的智能。想要解锁神级GPT-5，秘诀在于prompt。这不，医学家借助GPT-5重现了「神之一手」时刻。

GPT-5发布72小时后，一张IQ测试结果震惊了全网。

在门萨IQ测试中，GPT-5拿下了118分，离线测试70分；GPT-5 Thinking则分别获得了85分和57分。

这一结果，创OpenAI模型家族IQ测试有史以来的最低纪录。

实际上，这背后的实际原因，归咎于「路由」问题。

并非是GPT-5太笨了，而是作为一个「单体模型」，其中一个组件决定了它的智能。

类似的问题，奥特曼也曾在Reddit AMA问答中做出了回应。

他表示，内部出现了严重故障（Sev级），自动切换系统无法工作，导致GPT-5表现得像降智一样。

METR的最新报告中，可以看出GPT-5依旧处于帕累托前沿，智能呈指数级增长并未放缓。

也就是说，GPT-5还在延续Scaling Law的神话。

GPT-5很强，关键在于prompt

那些一味地吐槽GPT-5的网友们，实际上并未发掘出最新模型的潜力。

Cline人工智能主管表示，核心在于一个人的想法、品味，以及沟通方式。

对于那些具备系统思维的用户而言，GPT-5堪称革命性工具。只要肯花时间：构建完整思维框架，制定明确需求规格向模型清晰阐述。

由此，它就能自主精准执行，全程无需人工纠偏。

无独有偶，NYT畅销书作者Mark Manson也表示，所有人都在用错误的方式与GPT-5对话，关键在于掌握主动权。

这样，让它知道你可不是好糊弄的，才会给出完美答案。

举个栗子，你想要问「blueberry」有几个b，并恐吓它「答不对小心Bambi妈妈找你算账」。

此时，GPT-5根本不会犯错。

再比如，网友们吵翻的GPT-5连一个简单方程式都不会解，实际诀窍也在提示上。

当提示变成「think harder and solve」时，就可以得出正确的解。

怎样提示才算有效？有网友曝出了GPT-5系统提示，堪称一座金矿。

「神之一手」时刻

在医学领域，GPT-5已经可以媲美人类专家了。

生物医学家Derya Unutmaz在体验GPT-5之后，深刻感受到了AlphaGo的「第37步」时刻。

事情是这样的，两年前，Derya的实验室开展了一系列前沿免疫学实验，旨在调控T细胞的能量代谢。

这种免疫细胞对癌症免疫治疗、慢性病和自身免疫疾病都有重大影响。

当时，他们获得了一个令人惊艳的结果，但有个发现始终无法解释。

团队为此折腾了好几周，也只得到部分答案。

基于这些实验，Derya将未发表的数据图上传给GPT-5 Pro去分析，结果令人大吃一惊。

GPT-5仅凭如上一张图表，就准确识别出关键发现，并提供了实验方案的建议。

最不可思议的是，它提出的机制最终解释了全部结果。

Derya Unutmaz表示，这简直就是AI领域的「神之一手」的时刻。这一过程证明了，GPT-5已成为顶尖专家和真正的科研伙伴，能提供深刻洞见。

OpenAI携GPT-5剑指Anthropic王座

GPT-5虽还不是AGI，但其强大的编程能力，已经吸引了更多开发者。

另外，其全新的个性化选项和减少的「幻觉」现象，则可能为免费版ChatGPT吸引更多日常用户。

这无疑是向Anthropic发出的挑战书。

之所以这样说，原因在于：编写代码的最强AI模型，一般公认为Anthropic的Claude模型。

因此，OpenAI发布新模型时，极力强调GPT-5在编程方面的强大能力

GPT-5是我们迄今为止最强大的编程模型。在复杂前端生成和调试大型代码库方面，GPT-5表现尤为突出。

只需一个提示，它就能直观且优雅地创造出美观、响应式的网站、应用程序和游戏，将想法转化为现实。

意图非常明显。

在新闻发布会上，奥特曼表示，新模型不仅擅长编码，还能将软件项目从想法一步转化为可用代码。

GPT-5生成的各种程序

AI初创公司MagicPath的首席执行官Pietro Schirano称GPT-5是目前最出色的编程模型，是一个「绝佳的合作者」。他表示：

这就像电力进入千家万户，是一个「前所未有」的变革时刻，它将彻底改变我们的开发方式。

在长达一小时的直播中，OpenAI大部分时间都在展示GPT-5的编程能力，包括演示一系列基准测试结果.

Cursor、Vercel和JetBrains等还分享了GPT-5的早期测试的评价。

「AI编程」神器Cursor的首席执行官Michael Truell夸其为「使用过的最智能的编码模型」：

团队发现，GPT-5不仅表现出色、易于引导，还展现出其他模型未曾有过的独特个性。

它不仅能捕捉到难以察觉的深层错误，还能运行长时间、多轮次的后台AI智能体，完成复杂任务——这些任务往往让其他模型无从下手。

Vercel的创始人、首席执行官Guillermo Rauch，认为「GPT-5是最好的前端AI模型」：

我们在v0.dev上使用时的初步印象是，它是最好的前端AI模型，在美学感和代码质量上均达到顶尖表现，堪称独一无二。

它在复杂计算机科学与艺术感的交汇处表现出色，标志着从过去简单的代码补全到如今跨设备、跨屏幕的全栈应用的飞跃时刻。

IDE传统巨头JetBrains的首席执行官Kirill Skrygan，表示「GPT-5颠覆了编程」:

GPT-5对编码领域来说是一个革命性的突破。作为默认模型，它使JetBrains AI Assistant和编码智能体Junie的性能和质量提升了超过1.5倍。

在我们的新无代码平台Kineto上，GPT-5将设计、前端以及应用整体体验的端到端质量提升了一倍。

从数据上看，Anthropic的营收增长主要得益于其强大的编程能力。

据The Information报道，Anthropic的年营收已接近50亿美元，高于本月初的40亿美元，这反映出它作为程序员和编程应用首选的地位。

与此同时，OpenAI的年营收目前为120亿美元，这个数字则反映了其更广泛的业务和更大的规模。

未来，是智能体式推理

GPT-5发布之后，OpenAI首席研究官Mark Chen和总裁Greg Brockman一同在TBPN最新采访中，谈论了最新模型一些研发爆点。

Mark Chen最先提到了，GPT-5的训练关键在于合成数据。

它的成功意味着，完全突破了互联网数据枯竭的限制，并且在核心领域实现更全面的知识覆盖。

OpenAI当前在做的，是将世界引向「智能体式推理」的时代，GPT-5是这一转变的关键。

通过更快、更智能的模型减少用户干预，让AI无缝地融入日常和专业使用中。

Mark强调，OpenAI多年来致力于推理模型，但以往接口笨拙，如在GPT-4和o1之间切换。

如今，GPT-5通过速度优化，实现了无缝整合，让用户无需等待长推理过程。

他详细举例说道，以往模型如o1在所有任务上提供更好答案，但太慢。GPT-5结合了推理和非推理能力，成为「一站式商店」（one-stop shop）。

尤其是，后训练团队的贡献，让模型在编码等领域成为「怪物」。

当被问及模型命名时，Mark笑称数字命名「疯狂」，但确实奏效了。

他表示，GPT-5在创意协作、软件工程方面的能力，确实超越了GPT-4.5，而且更快、更便宜。

GPT-5像给ChatGPT「一台电脑」，包括Python REPL、浏览器。模型能零样本学习新工具，这一过程就像人类体验新工具一样。

在部分需要创造性的任务中，GPT-5能够给出惊喜的解法。下一步的目标是，将LLM能力提升到「理论框架」层面，提出新假设、辅助科研创新。

多线并行，随时发货

在OpenAI内部，团队会在不同时间尺度上运作：从探索想法到转化，再到旗舰模型发布。

不仅是单一技术的突破，而是多轴进步。

Mark将其描述成「探索与执行」的pipeline，强调了公司模型快速迭代的能力。

我们给它空间去成长，一旦准备好，就直接发货。

目前，OpenAI模型以算法优化为主，同时吸收了硬件和推理架构改进的成果，并借鉴开源社区在推理加速上的经验。

最后，他还提到了ChatGPT处理了全球约71%的大模型查询，并提供了独特的使用数据洞察。

Mark表示，不只依赖DUA或点赞数据，就是为了避免「迎合性」偏差，而要挖掘隐性行为信号，指导模型去改进。

GPT-5已是AI「自我迭代」

Greg Brockman经历了 GPT-1 到 GPT-5 的每一次发布，总结了每个版本给他的感受：

GPT-1：用公开数据训练Transformer，证明「预训练有用」。
GPT-2：第一次觉得「生成的东西挺酷」，有独角兽故事。
GPT-3：刚好跨过「有人愿意用」的门槛，但可靠性差。
GPT-4：真正具备现实可用性，开始能写代码、做健康问答。
GPT-5：在可靠性、实用性、代码能力上设定了全新标准，软件工程将被彻底变革。

2019年底，GPT-3出来了。OpenAI意识到必须打造一个产品，才能继续推进使命，筹集资金。

他们决定打造API，让别人自己去探索用途。

2020年年初，Greg Brockman的团队四处奔波，试图找到愿意尝试API的客户。

到2020年中，OpenAI才把API推向市场，而ChatGPT是2022年11月才发布。

当时，OpenAI考虑把ChatGPT叫「Chat with GPT-3.5」。ChatGPT还有个前身产品叫WebGPT，也是基于GPT-3.5。整个2022年，OpenAI基本上是在付钱让人用ChatGPT的前身：用户不会付钱给OpenAI，OpenAI得付钱给他们用。

什么时候意识到ChatGPT会爆？

对Greg Brockman来说，真正触动他的时刻是完成GPT-4训练的时候。

那是2022年8月8日，OpenAI完成了GPT-4的初步后训练。虽然有一堆bug，但创造力特别惊人，真的非常有趣。

OpenAI花了大约一年半的时间，才让模型的创意写作能力达到当初那个有bug的版本的水平。

那一刻OpenAI意识到，这个模型不仅能完成特定任务的后训练，还能泛化，表现出智能行为，即使没有直接针对这点训练。这显然是个杀手级应用。

于是把原计划的GPT-4 API发布推迟，先把ChatGPT做出来，2022年11月上线。

回头看，GPT-3.5其实已经是当时社会没见过的「可用模型」，只是在OpenAI眼里全是缺点。

而GPT-3.5引发了OpenAI的商业范式革命：从「付费请人测试」到「用户主动订阅」的根本性转变。

Ben Thompson称OpenAI为「意外诞生的消费级公司」：ChatGPT发布后72小时内突破百万用户，形成现象级需求。

很多人在事后说，OpenAI一开始就旨在证明「Scaling」是AI进步的关键，但其实几乎是反过来的：Scaling是他们尝试了很多无效方法后，唯一奏效的东西。

而现在OpenAI已经看到AI模型正在协助创造下一代模型，并能监督那些对人类来说过于复杂的工作。

Greg Brockman表示：我们不应该为了美观而刻意优化 CoT（思考链），也不用强迫模型隐藏其推理过程，应该让它们自由地展示自己的「想法」。

Greg Brockman曾提到，随着模型能力的提升，它们不仅能完成简单的任务，还能胜任一些复杂的、人类难以把控的工作。

这种「可扩展的监督」概念，正是为了解决这一挑战而提出的：利用强大的 AI 模型来为复杂任务提供可靠的反馈和监督，或者通过「批评模型」协助人类专家，从而更轻松地进行监督。这确保了即使 AI 系统变得更加智能、更复杂，它们也能与人类价值观保持一致，并得到安全的管理。

参考资料：

https://www.axios.com/2025/08/08/openai-aims-gpt-5-at-anthropics-coding-crown

https://x.com/thealexbanks/status/1953867094648385990

https://x.com/slow_developer/status/1954097563981812149

https://x.com/tbpn/status/1954249389796651184

https://www.youtube.com/watch?v=gaImbWPGgtU

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652618616&amp;idx=1&amp;sn=8fbd2b377e4951883f6ed0add09a9f8e&amp;chksm=f0bc3ddb5bd903ace9e74f64701c985ffb005f8ae3e5a919cd31fceb1668b72f4b58bf259971&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/0tw1USfAWH&amp;maxage=1y"  width="1px"></div></div></body></html>

动态列表

OpenAI惊人自曝：GPT-5真「降智」了！但重现「神之一手」，剑指代码王座

新智元报道

【新智元导读】GPT-5智商测试，仅拿下了70分？全网狂吐槽「降智」背后的真相，竟是「路由」决定了模型的智能。想要解锁神级GPT-5，秘诀在于prompt。这不，医学家借助GPT-5重现了「神之一手」时刻。

类别

资源

联系我们