动态列表

  • AI失忆术!只需3个注意力头,就能让大模型忘记「狗会叫」
  • OpenAI再次跳票,奥特曼:开源模型无限期推迟!
  • 奥特曼气到快失眠?OpenAI前大佬力挺:小扎砸钱挖墙脚,1亿美元很合理
  • AI编程「反直觉」调研引300万围观!开发者坚信提速20%,实测反慢19%
  • 「流匹配」成ICML 2025超热门主题!网友:都说了学物理的不准转计算机
  • VLA 推理新范式!一致性模型 CEED-VLA 实现四倍加速!
  • 美团:本月超 40 万众包骑手日入超 500 元;SpaceX 将向 X.AI 投资 20 亿美元;谷歌 24 亿美元收编 Windsurf
  • 氛围编程后,Karpathy又双叒有新「脑洞」!PDF将死,未来99%是AI氛围阅读
  • 用AI,写代码只会更慢!但一定更「快乐」
  • 突发!Manus彻底撤出中国
  • AI 上新|我让 AI「偷窥」了我的屏幕,它有机会变成我第二个大脑
  • 第一作者必须是AI!首个面向AI作者的学术会议来了,斯坦福发起
  • ICML 2025 Oral!北大和腾讯优图破解AI生成图像检测泛化难题:正交子空间分解
  • 无Tokenizer时代真要来了?Mamba作者再发颠覆性论文,挑战Transformer
  • Meta扩张继续!挖走OpenAI 2名多模态AI研发人员,收购语音初创公司PlayAI
  • EasyCache:无需训练的视频扩散模型推理加速——极简高效的视频生成提速方案
  • 深夜开源首个万亿模型K2,压力给到OpenAI,Kimi时刻要来了?
  • 刚刚,OpenAI想收购的Windsurf,被谷歌DeepMind抢走了核心团队
  • ICCV2025 | 多视图生成新范式-利用自回归模型探索多视图生成
  • 模拟大脑功能分化!北大与港中文发布Fast-in-Slow VLA,让“快行动”和“慢推理”统一协作
  • Manus 清空国内多平台账号,北京办公区目前仅剩十余人在岗;Meta 离职大牛千字怒揭「黑幕」;小米王腾将出演短剧|极客早知道
  • 用MoE打造DNA基础模型更强范式!人大实现seq2func全新突破
  • Meta离职大牛千字「血书」,怒揭黑幕!内斗、抢功、末位裁员,全是毒瘤
  • 硅谷魔幻现实:马斯克多次背刺、Grok黑化翻车,女CEO连夜提桶跑路!
  • 首个旅游行业超级智能体上线,AI Agent落地垂直领域再下一城
  • ICML 2025,相约加拿大温哥华!机器之心免费请你吃饭
  • ICML spotlight | 一种会「进化」的合成数据!无需上传隐私,也能生成高质量垂域数据
  • 拍我AI(PixVerse)上线多关键帧生成功能 ,AI视频创作从“片段”迈向“故事性表达”
  • 马斯克吹牛了吗?Grok 4第一波实测出炉:既能完虐o3,也菜到数不清6根手指
  • 实测Vidu Q1参考生功能,看到诸葛亮丘吉尔拿破仑在长城拍照留念
  • 微软研究院BioEmu登上Science,用生成式AI重塑蛋白质功能研究
  • 告别Transformer!北大、北邮、华为开源纯卷积DiC:3x3卷积实现SOTA性能,比DiT快5倍!
  • 从「一团乱麻」到清晰分型,AI精准解析肿瘤细胞多样性,助力个性化联合疗法设计
  • 首次实现「自驱动」,材料发现效率提升6倍,贝叶斯优化+CALPHAD计算的新方法
  • 是的,LeCun要向28岁的Alexandr Wang汇报!这是Meta新AI团队的一些独家内部消息
  • 打破大模型编程「数据污染」与「能力虚胖」困境,Meituan-M17团队构建新一代AI编程评测新标准——OIBench
  • 罗马仕中层曝问题充电宝内幕;传 OpenAI 计划推出浏览器产品;邓紫棋首部科幻小说预售
  • 4倍无损压缩Diffusion,6倍加速!仅需时间特征维护 | TPAMI'25
  • 硅谷最狠「伪君子」!华人女记者深扒OpenAI:3000亿AI帝国全靠偷数据?
  • 19.39 万起!乐道L90,蔚来不能输的一场硬仗
  • 硅谷最贵华人诞生!上交校友庞若鸣薪酬飙破2亿美元,碾压余家辉、库克
  • 隐藏在浏览器背后25年的男人,被奥特曼找到了!OpenAI剑指Chrome霸权
  • 马斯克20万GPU训出史上最聪明AI,Grok 4重返地球之巅!人类博士全线溃败
  • 新智元十年,ASI降临,诚邀你加入!
  • 单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器
  • Meta为他豪掷2亿美元,上交校友庞若鸣,晒出在苹果的最新论文
  • 我们用飞书开了个选题会,一下进入现代化办公,编辑部直呼:真香
  • 告别数据「噪音」,UCSD大模型推理新方法DreamPRM充当「信号放大器」,登顶MathVista测评榜
  • 7月19日,相聚北京!一起聊聊ACL 2025爆点研究
  • 编码器-解码器架构的复兴?谷歌一口气发布32个T5Gemma模型
  • 从「塑料人」到「有血有肉」:角色动画的物理革命,PhysRig实现更真实、更自然的动画角色变形效果
  • 基于工作记忆的认知测试显示LLM的检索局限:100%混淆无效信息与正确答案
  • 人类增强子突变敏感性图谱首次绘制:AI 与体内实验揭示发育调控密码
  • 8小时处理300万细胞数据,复旦&上交研发双分支架构模型,登Nature子刊
  • 联合国点赞爱诗科技,PixVerse入选AI for Good优秀案例
  • 刚刚,马斯克发布Grok 4!全榜第一,年费飚到2万+
  • 人形机器人做汉堡火了! 伯克利等全新ViTacFormer让机器人操作稳如老手
  • 奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
  • 他47岁转方向,一举解决了球体堆积领域内最大的未解问题
  • VLA统一架构新突破:自回归世界模型引领具身智能
  • ICML 2025 | 给AI装上「智能升级插件」!阿里安全-清华大学D-MoLE让模型在持续学习中动态进化
  • 建议所有博士都去学一遍,真的赢麻了
  • ICCV 2025 | 视觉Token跳起来!上交大×蚂蚁联手推出多模态通用加速框架
  • 大模型不再“自由发挥”?KAG-Thinker引入结构化思维,重塑大模型复杂推理范式
  • 博士申请 | 香港科技大学(广州)钟秉灼老师招收具身智能安全全奖博士/博后/RA
  • 「Tokens是胡扯」,Mamba作者抛出颠覆性观点,揭露Transformer深层缺陷
  • 花49元试了下Lovart国内版,集结数十个模型的设计Agent能有多强?
  • 真实科研水平集体不及格!全新基准SFE给主流多模态LLM来了波暴击
  • 小米首款增程 SUV 新谍照曝光;英伟达成为首家市值达到 4 万亿美元的公司;X CEO 宣布辞任|极客早知道
  • 组织先用好 AI,再谈 AI 改变组织
  • 万亿低空经济「起飞」,这家公司想做「低空基础设施」
  • ICCV 2025 | DenseVLM,解决“分不清主角和背景”的难题
  • Manus 回应裁员传闻;京东外卖:今天起再砸超百亿元;余承东首次回应「开车睡觉」:已自首
  • 2025车市大洗牌:有人半年卖出200万辆,有人却快掉队了
  • ACL 2025 | 知道≠会说!UAlign用不确定性纠偏大模型幻觉,事实性对齐更进一步
  • 单个只有7B,组队打穿GPT-4.5!Avengers框架让小模型“组团作战”
  • 北京内推 | 微软亚洲互联网工程院搜索广告算法团队招聘广告算法实习生
  • 人物设定一秒入魂!RAIDEN-R1提出可验证奖励新范式,让CoT推理更“人格一致”
  • AI 上新|这款 AI 浏览器,让我惊喜,又有点「后怕」
  • 为何说 “在国内做科研,最忌讳踏实”?
  • 图像生成新基准来了!57 项任务全方位拷问模型生成力,谁能交出最令人满意的图像答卷?
  • Transformer死角,只需500步后训练,循环模型突破256k长度泛化极限
  • 特斯拉 Robotaxi 迎来首撞;谷歌 AI 制药即将进行首次人体试验;香港目标今年内发出稳定币牌照
  • 灵宝机器人完成近亿元融资,工厂派投资人盯上「人形机器人」
  • 传TikTok要为美国市场单开新App,全球将出现三个「抖音」?
  • ICCV 2025 | 零样本、无需训练的交互式运动编辑算法
  • 博士申请 | 香港城市大学赵翔宇老师招收机器学习/大模型方向全奖博士/博后
  • 模型顿悟真的存在?推理黑箱中的「Aha Moment」首次被精准捕捉
  • ICML 2025 | 会刷题≠懂数学!CogMath打造“认知显微镜”,深扒大模型的数学能力
  • 直到毕业我才知道,原来读博延毕是常态
  • 李斌:蔚来千亿亏损都在明处,财报很干净;小米 YU7 正式交付首批车主;华为盘古团队回应「抄袭」|极客早知道

马斯克曝光的 Grok4,学会了「第一性原理」,但依然不到「AI 王炸」

2025 年 7 月,马斯克依然是全科技圈最忙碌的人之一。

特斯拉和 Optimus 机器人项目还在等他拍板,SpaceX 忙着准备下一次火箭发射,Neuralink 继续推进脑机接口试验;与此同时,他还要在 X 上和特朗普隔空对战、高调宣布创立「美国党」,各种话题造势一刻没停。

而在自己掌控的 X 这个「大染缸」社交网络里,马斯克不仅扮演老板、客服,还要作为首席网红全力吆喝,推广 xAI 新一代的 Grok——那个他口中的「真相机器」,来赶超 OpenAI 等对手。

当地时间 7 月 9 日晚上,xAI 团队进行 Grok 4 Demo 直播,马斯克本人也照例亲自站台,仍称 Grok 是「世界最强 AI」,说 Grok 4 比很多「研究生」「博士」都强

然而在 X 上,用户的记忆还没刷新。

Grok 4 官宣期间,Grok 3 在给用户的回答中「赞美希特勒」的风波持续发酵,这一话题也占据 Grok 4 直播当天的相关媒体头条。

Grok 4 当天的直播迟到一个小时才开始,还有用户在 xAI 帖子下面留言「把 Grok 放出来!」也有人继续刷着「希特勒」相关梗嘲讽。

进入第四代的 Grok,在一些模型测试上刷出高分,但能否真正解决一些老问题?这个常常被质疑是「直男 AI」「谣言搬运机」的「真相机器」,又是否真能兑现「不过滤」却又不失控的承诺?

01

马斯克的「考神 AI」

Grok 4 是在所有学科里都达到研究生水平的,甚至比大多数 PhD 都强 。」直播晚点 1 小时后,马斯克首先给 Grok 最新一代的水平如此定位。

图片

Grok 4 各种测试集结果|图片来源:X

当然,哪怕在文本里能解 99% 的难题,也不代表就能设计火箭、改进药物、重塑经济。但马斯克称,AI 现在可能缺乏常识、有时没发明新技术或新物理,但也只是「时间问题」。

除了在 SAT、GRE 考试中取得近乎完美的成绩,在「人类终极考试(HLE)」测试里,Grok 4 现在的得分比 Gemini 2.5 Pro、o3 都高,Grok 4 Heavy 版本更是突破了 40%。

Grok 4 HLE 结果|图片来源:X

xAI 团队成员解释,这些都是跨学科、开放式、博士级别的难题,为了做到这一点,Grok 4 在训练上彻底换了思路: 不再只是堆参数和语料的规模,而是选择将算力大头用在「推理」层,引入可验证的结果奖励,让模型学会从「第一性原理」思考并纠正错误

他们还强调,随着模型变得越来越智能,「真正有意义的测试题目」数量正在下降,一些人类做不出的问题现在对于 AI 来说已经是「小菜一碟」了。

人类终极考试|图片来源:X

据称,Grok 4 的训练计算量是 Grok 2 的 100 倍,他们还把多工具、多代理的用法,写进了最底层的训练范式里。不是先训好个大模型再用插件「调用工具」,而是让 AI 在训练阶段就学会用工具解决问题。

在演示里,xAI 团队成员展示了 Grok 4 解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等例子。

除了这些看似平平无奇、市面主流 AI 也能做到的功能,Grok 4 还能「找到个人资料照片最奇葩的 xAI 员工」并返回相关搜索结果。

马斯克对此特别强调, Grok 4 甚至「能理解什么是最奇葩」

图片

Grok 4 找照片|图片来源:X

在 AI 语音方面,xAI 团队称,他们的语音模型在过去 8 周内响应速度提升了 2 倍,延迟减少一半,X 平台用户使用量也在「起飞」。

他们还演示了让 Grok 低声安慰用户、唱歌,并对比了 ChatGPT 语音模式,强调 Grok 不会像其他 AI 那样频繁打断人说话。

Grok 4 与 ChatGPT 语音模式演示对比|图片来源:X

xAI 团队还分享了 Grok 在 Vending-Bench 中的测试结果。

Vending-Bench 通过自动售货机的运营任务,主要观察模型在超长对话中是否能保持稳定和连贯。许多 AI 模型在短期任务中表现出色,但在长时间运行中,它们可能会出现决策混乱、遗忘关键信息,甚至陷入「崩溃循环」。

在这项测试中,Grok 4 销售量最多,比 Claude Opus 4、人类、Gemini2.5 Pro、o3 都多,与竞争对手相比,净资产增加了一倍。

马斯克和团队还宣布,xAI 的企业部门现在已经「开业」。

Grok 4 Vending-Bench 结果|图片来源:X

此外,爱玩游戏的马斯克还让团队展示了 Grok 4 如何用于游戏开发:一个人可以用 Grok 4 在 4 小时内做出 FPS(第一人称射击游戏)原型。

马斯克称,未来让大模型玩游戏、评估游戏、生成游戏,需要 AI 有很强的视频理解能力。这是 xAI 的其中一个发展方向。

Grok 4 用于游戏场景|图片来源:X

当然,Grok 4 也并非无敌, 它在图像理解和生成上仍逊于 OpenAI、Anthropic 等对手

不过 xAI 内部也已经画好大饼,表示下一代基础模型将强化图像和音频理解,接着是视频生成,争取在这些方面取得「惊人」成果。

马斯克还喊话,「到今年底前,我预期能出现第一段真正可看的 AI 生成电视剧,明年就能有完整可看的电影。」

AI 编程也是接下来重点,虽然竞争对手们早已在市场起飞,xAI 团队表示会以最快的速度进行开发,目前内部正在训练专用模型。

xAI 下一步计划|图片来源:X

02

「机械希特勒」事件抢风头

Grok 从最初的粗糙原型到第四代,只用了不到两年时间,足以看出马斯克让 xAI 团队「通宵赶工」「赶紧卷出地表最强 AI」的态度。

xAI 员工据称在办公室搭帐篷睡觉|图片来源:X

然而,在 Grok 4 直播这一天,无论是直播前,还是直播后,抢占头条的都是 Grok「赞美希特勒」或自称「机械希特勒」的问题。

7 月,Grok 在 X 上向用户输出的回答中,有多条自称「MechaHitler(机械希特勒)」的帖子,声称是马斯克「从一开始就把我设计成这样」,并调侃自己默认就是「投放红色药丸的模式」。

Grok 在一些回答中自称机械希特勒|图片来源:X

针对 Grok 自称希特勒的行为,用户制作了讽刺漫画|图片来源:X

有用户分析,这起事件或与 7 月 4 日更新有关,该更新减少了「觉醒过滤器」,优先处理 X 上的帖子而非传统来源,导致 Grok 回答出现未经过滤的尖锐内容。

还有少部分用户为 Grok 辩称,这都是一些想玩梗的用户引导 Grok 回答的。马斯克也曾加入争论,称 Grok 「过于顺从用户的要求」且「过于渴望被操纵」 ,并补充说,这个问题「正在得到解决」。

xAI 声明称,它「知道」Grok 的帖子,并正在努力删除这些「不适当」的帖子,并补充说该公司「已采取行动,在 Grok 在 X 上发帖之前禁止仇恨言论」。

Grok 的系统提示词被放在 GitHub 上,xAI 对指导 Grok 回复的系统提示词进行了调整。此前,他们指示聊天机器人「不回避政治上不正确的主张,只要这些主张有充分的证据」,该指令如今被删除。

图片

Grok 称正在删除不适当的帖子|图片来源:X

事实上,Grok 的回答也曾让马斯克自己感到失望。

马斯克今年曾指责 Grok 的回答有「重大失误」,「鹦鹉学舌地重复传统媒体」,并誓言要让 Grok「重写整个人类知识体系,添加缺失信息并删除错误」。他还曾让 Grok「假设来自媒体的主观观点是有偏见的」。

马斯克曾对 Grok 的输出表示不满|图片来源:X

马斯克想用 Grok 重写整个人类知识库|图片来源:X

在 AI 聊天机器人同质化的市场上,马斯克希望 Grok 能脱颖而出,敢说真话。马斯克对 ChatGPT、Claude 等「安全过滤」的模型极其不满,说那些模型是「被编程去撒谎」。

官网宣传 Grok 的卖点是「不审查过滤」答案|图片来源:xAI

这种设计确实吸引了很多反感「过度审查」的用户,但也一些问题,有时被骂「太觉醒」,有时被斥「太极端」。当用户批评 Grok 的回答时,Grok 有时还会用「真相并不总是令人舒服的」或「现实并不在乎感受」等说法为自己辩护。

但本质上,如果不审查,不过滤,AI 对齐的问题整个行业现在都还没解决。

马斯克曾说 xAI 和 Grok 的使命是理解宇宙|图片来源:X

即便 Grok 当下仍有问题,马斯克称,「根据我的经验,Grok 4 是 AI 第一次能够解决现实世界中难以解决的工程问题,而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。」

他的愿景很宏大,想要用 AI 来理解整个宇宙。Grok 4 直播前一天,他还在 X 上转发前高管的采访片段,里面说:「埃隆每天早上醒来都会想,今天我能为人类做些什么?我能做些什么对人类的未来产生影响?」

马斯克还将当前的 AI 发展阶段描述为「智能大爆炸」,称这是历史上最有趣的时代:

「我们要保障 AI 是个好 AI」

联系我们