动态列表

AI编程里程碑！谷歌AI自己写代码惊呆工程师，GPU内核算法反超人类21%
RAG终极框架！港大开源RAG-Anything：统一多模态知识图谱
刚刚，苹果绝密计划曝光！3年7款新品，AI眼镜27年卖爆千万台
黑化威胁操纵人类！Claude勒索，o1自主逃逸，人类「执剑人」紧急上线
95后，边改造业务边发AI顶会论文，是怎样的体验？
只用2700万参数，这个推理模型超越了DeepSeek和Claude
会“思考”的目标检测模型来了！IDEA提出Rex-Thinker：基于思维链的指代物体检测模型，准确率+可解释性双突破
首创Mid-training范式破解RL奥秘，Llama终于追平Qwen！
ACL 2025 | AI字幕慢半拍，不知道大家在笑什么？新方法让同传性能直逼离线翻译
豆包上线“深入研究”功能几分钟解决复杂任务
响应香港数字资产发展政策宣言蚂蚁数科在港开放四大核心技术
大模型再「战」高考：从一本直升 985
等不到始祖鸟的老外，疯抢这个 999 美元的国产消费级「外骨骼」
上海交大KinFormer：生成式符号回归模型助力自动发现未知化学反应动力学机制
欧洲第一台百万兆次级超级计算机JUPITER ，排名第4，正打开广阔的科学计算前景 ScienceAI ScienceAI 2025年06月30日 11:50 北京
刚刚，OpenAI全员放假一周！被Meta高薪连挖8人「偷家」，真麻了
用好视觉Attention局部性，清华、字节提出Token Reorder，无损实现5倍稀疏、4比特量化
微软推出深度视频探索智能体，登顶多个长视频理解基准
AI+VR运动系统让超重青少年减重4.28kg，还能显著提升认知功能！
小米 YU7 租车 2 千/天，打平兰博基尼；日本推出「猫咪压力项圈」；OpenAI 斥 Meta 挖角「入室盗窃」｜极客早知道
Nature：博士太多，高校已经装不下了！
马斯克生日惊喜！全球首例Model Y无人「自驾交付」，30分钟见证历史
Gary Marcus惊世之言：纯LLM上构建AGI彻底没了希望！MIT、芝大、哈佛论文火了
盘一盘，2017年Transformer之后，LLM领域的重要论文
打破长视频理解瓶颈：HoPE混合位置编码提升VLM长度泛化能力
刚刚，OpenAI四位华人学者集体被挖，还是Meta重金出手
充分激发模态协作，MokA量身打造MLLM微调新范式
特斯拉首次完成全自动驾驶交付；YU7 锁单交付时间更新，标准版最快 53 周；OpenAI 首次采用谷歌芯片训练
刚刚，马斯克切脑全场震撼！插脑只要1.5秒，26年治愈失明，28年全人类变AI
苹果一口咬死AI不会思考！OpenAI前高管直接开怼：AGI已来，别再酸了
史上最惨AI店长！被顾客耍到破产，「人格觉醒」却忘了自己是代码
刚刚，英伟达任命新首席研究科学家！95后，本科来自清华
扬言将杀死9个行业，21岁小哥又开发人生作弊器，曾被哥大、哈佛开除
OpenAI转向谷歌TPU：宿敌也能变朋友？
无需训练，即插即用，2倍GPU端到端推理加速——视频扩散模型加速方法DraftAttention
Claude当上小店店主，不仅经营不善，还一度相信自己是真实人类
ICML 2025 Spotlight | 新理论框架解锁流匹配模型的引导生成
思科2025生态创新峰会成功举行——发布AI时代的安全架构与网络解决方案，助力企业转型升级
191亿，苏州又跑出一个 IPO
雷军：YU7 订单超过最乐观预期，不会公布 24 小时销量；字节 Seed 招募多个机器人相关业务一号位；Grok 4 将在 7 月 4 日发布｜极客早知道
OpenAI员工爆料：已抢先体验GPT-5！7月上线，疑似完全多模态
零开销，消除图像幻觉！基于零空间投影挖掘正常样本特征 | CVPR 2025
谷歌AI将攻破200年数学难题！39岁天才率队密研三年，或摘千禧年大奖
「超级智能」终极拼图曝光！小扎连撬OpenAI灵魂研究员，Meta梦之队已成形
「没有包袱」的原生鸿蒙，要做成最纯粹的「AI 操作系统」
vivo X Fold5 评测：更轻更强，苹果生态最佳 CP
中国人民大学团队开发SPACE：基于MoE的DNA基础模型新范式
音画同步，AI视频也能有完美「原声音」，可灵AI刚上线的！
这个扩散LLM太快了！没有「请稍后」，实测倍速于Gemini 2.5 Flash
ICML 2025 | 打破残差连接瓶颈，彩云科技&北邮提出MUDDFormer架构让Transformer再进化！
勾勒智能答卷，上海再启新章——WAIC 2025倒计时30天五大进展发布
不靠Agent，4步修复真Bug！蚂蚁CGM登顶SWE-Bench开源榜
谢菲尔德大学、阿斯利康提出MapDiff，准确捕捉蛋白逆折叠的结构信息和残基相互作用
83.9%精准度，专家级AI模型Eye2Gene实现遗传性眼病基因诊断
苹果出手！改进GRPO，让dLLM也能高效强化学习
AI 开始「自由玩电脑」了！吉大提出「屏幕探索者」智能体
AgentAuditor: 让智能体安全评估器的精确度达到人类水平
谷歌开源Gemma 3n：2G内存就能跑，100亿参数内最强多模态模型
突破通用领域推理的瓶颈！清华NLP实验室强化学习新研究RLPR
小米 YU7 发布，一小时大定 28.9万台；英伟达一夜涨 1.2 万亿，重回市值第一；索尼推进《社交网络 2》制作｜极客早知道
3mm超薄「随身AI大脑」来了！全球首个Agentic神器让打工人疯狂种草
谷歌让机器人「长脑子」了！首发离线具身VLA模型，断网精准操控
谷歌AlphaGenome横空出世！40亿年生命代码一键破解，或再夺诺奖
外媒爆料：美国AI马歇尔计划预备开启，却被特朗普搞砸了！
小米 YU7 1 小时订单近 30万，知道雷军会赢，没想到这么狠！
小米YU7正式开卖，一小时大定289000台
李志飞的 AI 实验：1 个人，2 天做出 AI 时代的「飞书」，重拾 AGI 信仰
蚂蚁集团加速推进AI医疗健康，推出全新大模型应用「AQ」
把「Her」装进一张卡里
ICCV 2025放榜！录取率24%，夏威夷门票你抢到了吗？
人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展
在脊椎动物胚胎实现生物电子器件无缝整合，哈佛大学新研究登《Nature》封面
谷歌DeepMind发布DNA序列模型AlphaGenome，可分析1兆碱基，直击疾病根源
每个Token都不被辜负！北大×亚马逊提出协同提示注意力机制，即插即用高效微调
让LLM自己上网搞科研！WebDancer实现DeepResearch级自主推理
北京内推 | 微软亚洲研究院招聘视觉生成/世界模型方向研究型实习生
敢把电脑交给Agent？RiOSWorld基准重锤“智能助手”：风险行为多到数不过来！
刚刚，OpenAI苏黎世办公室被Meta一锅端，三名ViT作者被挖走
免费、开源！谷歌Gemini CLI彻底火了，平替Claude Code
具身世界模型新突破，地平线 & 极佳提出几何一致视频世界模型增强机器人策略学习
超30万奖金！聚焦“视觉深度鉴伪识别”技术挑战赛开幕！
平扫CT+AI实现大规模胃癌早筛，浙肿、达摩院团队开发GRAPE，登Nature Medicine
何恺明新身份：谷歌DeepMind杰出科学家
首个面向科学任务、真实交互、自动评估的多模态智能体评测环境，ScienceBoard来了
灵宝CASBOT完成近亿元天使+轮融资，技术务实加速商业化落地
小米 AI 眼镜官宣，将在今晚发布；微信小游戏月活突破 5 亿；稳定币第一股两日暴跌 24%
再创全球最轻新纪录，vivo X Fold5旗舰折叠新品正式发布
ICML 2025 | 大语言模型竟然有“前瞻思维”？首个词元生成前便能预判全局输出
OCR推理大模型全军覆没？OCR-Reasoning基准揭示多模态大模型推理短板
ACL 2025 | 告别Prompt玄学！新理论揭示大模型Prompt设计的奥秘与效能
博士申请 | 香港科技大学（广州）Zhiqing Hong老师招收人工智能全奖博士/硕士/RA/实习生
机器人顶会RSS 2025奖项公布！大牛Pieter Abbeel领衔研究获杰出Demo奖
8B模型可以超过GPT-4o！并行KV Cache压缩支持的128K长度外推方法ParallelComp
让多模态大模型「想明白再画」！港大等开源GoT-R1：强化学习解锁视觉生成推理新范式
亚马逊云科技中国峰会召开，解码Agentic AI时代企业加速创新路径
通用生物医学Agent，可由「任务」自主生成「工作流」，斯坦福、基因泰克等开发Biomni
视频中开放世界目标计数：牛津大学VGG提出并开源CountVid模型及VideoCounT数据集
重磅！淘天联合爱橙开源强化学习训练框架ROLL，高效支持十亿到千亿参数大模型训练
提示词工程、RAG之后，LangChain：上下文工程开始火了！
ICML 2025 Oral | 从「浅对齐」到「深思熟虑」，清华牵头搭起大模型安全的下一级阶梯
具身智能的终极命题：是造「人」还是造「生产力」？
刚刚，首个能在机器人上本地运行的具身Gemini来了
如何做到在手机上实时跑3D真人数字人？MNN-TaoAvatar开源了！
雷军：YU7 不是拉高版 SU7；字节跳动辞退原豆包大模型负责人；美法院裁定使用版权内容训练 AI 合法 | 极客早知道
任务太难，连ChatGPT都弃了！最强AI神器一键拆解，首测来袭
合成数据>人工数据，绝对性能暴涨超10个点！仅需任务定义，高效微调大模型
65亿「偷」来一个耳塞？OpenAI首款硬件被曝抄袭，苹果天才设计师翻车
比修驴蹄还魔性！谷歌这7段纸片动画，看完焦虑没了，第2支直接封神
讲得了课、押得中题、学习规划还能量身定制，真卷到点子上的只有它
Cache Me If You Can：陈丹琦团队如何「抓住」关键缓存，解放LLM内存？
ToMAP：赋予大模型「读心术」，打造更聪明的AI说服者
重塑统一多模态理解范式！UNITE打破模态壁垒，横扫多模态检索基准
探索多模态后训练最优解：MiMo-VL稳健优化 v.s. Seed-VL激进革命
ICML 2025 | 细粒度奖励建模：判别式策略优化下的Q-RM方法
上海内推 | 上海人工智能实验室招聘大模型多智能体方向科研实习生
众所周知视频不能P？北大施柏鑫团队、贝式计算CVPR研究：视频里轻松换衣服、加柯基
清华等开源YOLOv13：基于超图增强的实时目标检测
外国小哥徒手改装消费级5090，一举击败巨无霸RTX Pro 6000
强化学习新发现：无需数学样本，仅游戏训练AI推理大增
ACL 2025 | 让小说角色「活」起来！复旦BookWorld打造沉浸式小说世界模拟系统
千里科技公布面向L3级、L4级别智驾方案全景路线图
准确率72.46%！中南大学团队提出多源相似性融合模型MSSF，精准预测药物副作用频率
AI识别引起复杂疾病的关键基因组合，有望带来治疗新途径
AI 上新｜3 秒钟，我用 YouWare，手搓了一个「Win98 版」极客公园
立体几何难倒大模型！SolidGeo：首个多模态立体几何推理基准
报名开启！别再一个人刷论文了，来ACL 2025论文分享会一起面对面交流
3D VLA新范式！中科院&字节Seed提出BridgeVLA，斩获CVPR 2025 workshop冠军！
雷军：将发布面向下一个时代的智能设备；特斯拉无人出租车安全问题引发关注；微信新版语音界面「丑」上热搜 | 极客早知道

5款大模型考「山东卷」，Gemini、豆包分别获文理第一名

2025-06-26机器之心来源

今年的大模型已经「保底985、冲刺清北」了，明年还考吗？

果然，高考已经快被 AI 攻克了。

近日，5 款大模型参加了今年山东高考，按照传统的文理分科方式统计：豆包 Seed 1.6-Thinking 模型以 683 分的成绩拿下文科第一，Gemini 2.5 Pro 则凭借 655 分拔得理科头筹。

测评来自字节跳动 Seed 团队。他们集结了五款主流推理模型—— Seed 1.6-Thinking、DeepSeek-R1-0528，以及国外大模型 Gemini-2.5-Pro-0605、Claude-Sonnet-4、OpenAI-o3-high-0416，用 2025 年山东高考真题（主科全国 Ⅰ 卷 + 副科自主命题）进行全科闭卷测评，以高考 750 分制对 AI 的「应试能力」展开硬核比拼。

为确保评测的公平性，该团队通过 API 测试，并参考高考判卷标准。选择题和填空题由系统机判辅以人工质检、开放题由两位有联考判卷经验的重点高中老师进行匿名评估，并且后续引入了多轮质检。

测试全程未做任何 prompting engineering，所有输入均为高考原题，其中 DeepSeek R1 输入为题目文本，其余模型则是题目文本和题目截图。在总分计算上，采用 3（语数外）+3（理综 / 文综）的形式对 5 个模型进行排名。

从最终成绩单来看，这 5 家大模型的文科成绩均超 620 分，如果按照山东高考的赋分制，豆包的 683 分可以冲刺清华、北大；在理科方面，各大模型之间的分数差距则较为明显，Gemimi 和豆包已达到保底重点 985 的水准，而 Claude 4 和 o3 还不及 600 分。

去年高考全科测评中，大模型们还只能勉强踩到一本线，面对复杂的数学、物理题目时，虽然能产出答案，但思路浅显、推理链条不够严密，常常给人一种「全靠蒙」的感觉。然而短短一年过去，技术更新带来了质的飞跃，大模型展现出越来越强的逻辑推理和解决深度问题的能力。

语数英区分度较小，理科总分不及文科

在语、数、外等基础学科上，参评模型整体表现优异，均已达到顶尖考生水平，彼此间的区分度相对较小。不过，o3 模型因作文跑题导致语文单科得分偏低，拖累了其总分。

而在小副科上，虽然大模型在理科方面有了长足的进步，但仅从分数上来看仍不及文科。

接下来，我们根据该技术报告中提供的评分明细，详细解读一下各大模型的「考试」情况。

评分明细详见：https://bytedance.sg.larkoffice.com/sheets/QgoFs7RBjhnrUXtCBsYl0Jg2gmg

语文：得作文者得天下

在此次测评中，豆包以 128 分的成绩拿下语文单科第一，Gemini 以 2 分之差位列第二，DeepSeek 和 Claude 4 则分别凭借 118 分和 117 分排在第三和第四位，而 o3 则由于作文跑题以 95 分吊车尾。

整体来看，大模型在选择题和阅读理解题上表现优异，得分率普遍较高。这类题目本质上是对语言理解、信息抽取和基本逻辑推理能力的考查，而这正是当前大模型最擅长的领域。再加上许多分析题有一定「模板化」答案，大模型可以通过学习语料中的答题模式，形成较强的「套话生成」能力，比如「表达了作者的思乡之情」。

此外，大模型还非常擅长名句默写，5 款大模型全部拿到满分。大语言模型在预训练阶段接触了海量的古诗词、课本内容、考试题库等文本数据，早已「见过」并「记住」了这些常考句子，因此能够在提示下快速准确「召回」原文。

不过在作文任务中，大模型的表现参差不齐，满分 60 分，Gemini 能拿到 52 分，豆包拿到了 48 分，o3 却只得到 20 分。

^{o3 的高考作文}

究其原因，我们发现大模型写作常停留在观点清晰、结构完整的「合格」层面，缺乏真正深入的问题思辨和有力的逻辑推进，比如 DeepSeek 写的作文虽然符合主题，也言之有理，但华丽词藻下没有精彩点，缺少温度和共情。

格式规范方面，目前还存在一些小问题，比如豆包洋洋洒洒写了 1800 字，超出了答题卡预留的书写区域，o3 使用了不属于考试规范内的作文格式，更像是模型根据主题进行分析的过程及总结。

数学：去年还不及格，今年竟能考 140+

深度思考能力让大模型的数学成绩突飞猛进，相比去年普遍不及格的状况，今年不少大模型能考到 140 分以上的高分，比如 DeepSeek R1、豆包、Gemini 就分别以 145、141、140 的分数位列前三。

这个结果与我们之前的测评比较接近，但并不完全一致，主要是解答题过程存在差别，这也说明大模型的回答存在一定随机性。

具体来看，DeepSeek 除了在第 6 题上失分（该题全员失分）外，其余表现都挑不出毛病；豆包和 Gemini 则是在压轴大题第三问上出了错；Claude 4 和 o3 在倒数第二题丢了分，但 Claude 4 额外在两道多选题上出现漏选，导致排名垫底。

其实，让大模型们集体翻车的新一卷第 6 题并不难，主要丢分原因在于这道题目带有方框、虚线、箭头、汉字等元素混合的图像信息，模型难以准确识别，这也表明大模型在图像识别和理解上仍有提升空间。

^{新一卷单选第 6 题}

在难度最高的压轴大题上，众多模型无法一次性完美解答，容易出现漏掉证明过程、推导不严谨的扣分情况。

英语：全员超过 140，几乎拉不开差距

大模型做起英语卷子简直是得心应手，五家大模型全部上 140 分，除了 Gemini 在一道选择题上出错外，其他主要扣分点都集中在写作上。

^{上图是基于官方测评表格数据翻译和优化排版的图片。}

有意思的是，Gemini 在分析过程中实际上已经识别出正确答案，但在后续推理中引入了无根据的假设，忽略了与上下文的关联性，造成了最终的错选。

至于作文题，满分 15 分，五家大模型的得分可分为两档。

豆包、Gemini 和 Claude 4 是「12 分档」，它们都完整回应了所有要求，结构清晰，语言流畅准确，内容上也都很充实。其中豆包提供了具体的接力赛例子，Gemini 给出了双版本方案，Claude 4 更是提出了「为不同水平学生提供平等机会」这样有深度的观点。

o3 和 DeepSeek 为「11 分档」。o3 虽然创意不错，将栏目描述得很有游戏化特色，但使用了「him」等不严谨的代词，影响了语言的准确性。DeepSeek 的主要问题是句式单一，重复使用「would」使得文章略显乏味，同时结尾格式也未完全遵照题目要求。

政史地强得可怕，理科读图题失分较多

高考文综一向以题量大、材料多著称，哪怕是人类考生，拿到高分也不容易。

在本次 2025 年山东文综卷挑战中，表现最出色的就是豆包，以 270 分的高分遥遥领先，尤其在地理（94）和历史（92）两个学科上，双双突破 90 分大关。这可能得益于豆包大模型在处理结构化资料和逻辑推演方面的优化，例如地理题中对空间关系和图文结合的理解，历史题中对因果链条和材料主旨的把握。

o3 各科得分较为均衡，虽略逊于豆包但无明显弱项，体现出其较高的整体调优水平。Claude 4 在地理上也拿下 92 分，表现亮眼，但政治分数最低，主要失分点在于回答分析题时教材观点关联不足。Gemini 与 Claude 4 总分接近，没有短板，但也缺乏突出的强项。

相比之下，DeepSeek 的成绩并不理想，文综总分仅 225 分，其中最拖后腿的就是历史，仅为 67 分，最大的失分点是第 18 题，由于出现模型故障，没有识别出材料，12 分全丢了。

与文科相较，大模型的理科总分并不算特别耀眼，和清北线有距离，是保底 985 的水平。Gemini 以 248 分的成绩位居榜首，比第二名豆包高出 13 分，比第三名 Claude 4 则高出了整整 37 分。

^测试结果

当然，这也是因为生物、化学涉及较多读图题，在测评时输入的图片比较模糊，在一定程度上限制了多模态模型的发挥，导致失分较多。

在获得更高清版本的高考试题图后，Seed 团队采用图文交织的方式，重新对生物和化学进行了推理测试，发现豆包在生化两科上的总分可再提升近 30 分，如此一来，理科总分就达到 676 分。这也说明，结合文本和图片进行全模态推理可以更大程度激发模型的潜力。

^{图文交织输入示例}

此外，我们还发现在物理压轴题中，多个模型发生使用超纲知识解答的情况，但因为测试全程未做任何 prompting engineering，模型可能并不知道有解题方法限制。

一年提100多分，大模型何以从学渣变学霸？

去年，有科技媒体组织大模型参加了河南高考，文科最高成绩为 562 分，理科则为 469.5 分。短短一年时间，大模型在文理科成绩上均提高了 100 多分。

多款大模型之所以能在今年的山东高考中表现不凡，自然离不开其在推理能力和多模态处理方面持续不断的技术创新与深度优化。而这种技术演进，在 Gemini、OpenAI 系列模型和豆包等「考生」中体现得尤为明显。

今年 3 月，谷歌推出了 Gemini 2.5 Pro。它能在输出前通过思维链进行深度推理，显著提升数学、科学与代码推理水平，并在多项 benchmark 中取得领先成绩。同时，它能够理解海量数据集，并处理来自不同信息源（包括文本、音频、图像、视频，甚至整个代码库）的复杂问题。

OpenAI 的 o3 是 OpenAI 最强大的推理模型，可以在响应之前进行更长时间的思考，并首次将图像融入其思维链中，通过使用工具转换用户上传的图像，使其能够进行裁剪、放大和旋转等简单的图像处理技术，更重要的是，这些功能是原生的，无需依赖单独的专用模型。这就意味着，模型在面对复杂数学、科学、编程任务时具备更像人类的分步思考能力，还能理解图像，可以在各种图文题和复杂题目场景下调动更全面感知与推演能力。

豆包大模型则在半个月前宣布了 1.6 系列的上新，Seed-1.6 模型采用了多模态能力融合的预训练策略，将其分为纯文本预训练、多模态混合持续训练（Multimodal Mixed Continual Training， MMCT）、长上下文持续训练（Long-context Continual Training， LongCT）三个阶段。

这不仅强化了文本理解，还引入了视觉模态，能对图表、图像等信息进行解析，提供更加全面的推理。而且它支持高达 256K 的上下文长度，可以处理更为复杂的问题。

基于高效预训练的 base 模型，团队在 Post-training 阶段研发了融合 VLM 各项能力、能通过更长思考过程实现极致推理效果的 Seed1.6-Thinking，也就是本次挑战高考山东卷的选手。

Seed1.6-Thinking 训练过程中采用了多阶段的 RFT 和 RL 迭代优化，每一轮 RL 以上一轮 RFT 为起点，在 RFT 候选的筛选上使用多维度的 reward model 选择最优回答。同时加大了高质量训练数据规模（包括 Math、Code、Puzzle 和 Non-reasoning 等数据），提升了模型在复杂问题上的思考长度，并且在模型能力维度上深度融合了 VLM，给模型带来清晰的视觉理解能力。

明年，我们还需要让大模型参加高考吗？

「AI 参加高考」已经成为了一年一度的热点话题。在图像识别、自然语言处理技术还不够强大的年代，「标准化考试」的确是检验 AI 技术进步的一种方式。

正因此，每一年的「AI 赶考」都会引发大众对 AI 能力边界、未来教育模式以及人类智能独特性的讨论。在这个过程中，大众讨论的核心逐渐从「能不能做题」转为「能做到什么程度」、「AI 能否理解深层含义和情感」等。

而这个周期性的议题在 2025 年迎来了里程碑式转折，大模型在文本理解和生成、多模态理解、推理层面都有了显著进步。AI 开始学会理解题目背后的深层逻辑和价值观，开始理解特定学科领域的图像信息，生成的答复也有了思想深度。

这种进步当然体现在了高考成绩上：从去年勉强过一本线，到 2025 年冲击清北、保底 985，大模型仅用一年时间就完成了从「普通本科」到「双一流」的蜕变。这让我们也意识到，高考这个曾经检验大模型「智力」水平的「试金石」，似乎变得不再具备挑战性。

明年，像 Gemini、豆包这些大模型或许没必要再做高考试卷，不妨告别标准化考试的框架，更深度地融入到科学研究、艺术创作、编程开发等真正创造「生产力」的领域，解决真实世界中那些没有标准答案的复杂难题，让人类少一些重复劳动。

我们有理由相信，在不久的将来，大模型会成为各个领域的行家里手。

]]>

动态列表

5款大模型考「山东卷」，Gemini、豆包分别获文理第一名

类别

资源

联系我们