动态列表

  • 扎克伯格急了!Meta内部文件曝光:宁用竞品,也要废掉祖传系统
  • 英伟达4段简短提示词,IOI夺金!开源模型也能征服最难编程竞赛
  • 超越纯视觉模型!不改VLM标准架构,实现像素级深度预测
  • 5万美元筛选「超级婴儿」, 智商提升15点?马斯克被曝是客户!
  • NeurIPS 2025 | KAUST与MetaAI提出Vgent:图增强RAG,长视频理解性能超越SOTA 8.6%
  • TPAMI 2025 OccScene:联合扩散框架,同时推进感知与生成进步,3D场景生成新突破!
  • 不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO
  • 不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式
  • 中国AIGC用户破5亿,增长1倍;今年超7成外卖低于15元;新能源事故,「破窗锤」被网友买爆|极客早知道
  • AI芯片战争关键一役!英伟达最强Blackwell首次「美国造」
  • 数学界地震!GPT-5连破10道「百年悬案」,陶哲轩:AI革命才刚开始
  • 前OpenAI研究员跨界做文创:Ilya发型帽子走红,AI成潮牌!
  • 训练成本暴降99%,35秒出1分钟高清视频!英伟达MIT等引爆视频AI革命
  • Karpathy泼冷水:AGI要等10年!根本没有「智能体元年」
  • 早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结
  • 一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理
  • First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思
  • 传 iPhone 17 Air 表现不佳,砍百万产量;黄仁勋:英伟达中国份额从 95% 降到 0%;AI 致维基百科访问显著下降
  • 马普所&谷歌等提出AnyUp:无需再训练的通用特征上采样,推理即用,效果SOTA!
  • 北大等提出MaskDCPT:通用图像修复预训练新范式,PSNR提升3.77dB
  • 可处理上万变量,攻克高维时序预测难题!华人团队开源模型、基准
  • Bengio推AGI「高考」,GPT-5单项0分
  • Hassabis官宣用AI点燃「人造太阳」!无限能源时代加速到来
  • 全球第一,最强OCR之神诞生!百度这个0.9B开源模型问鼎SOTA
  • 太狠了,四条腿被锯掉也能爬!通用大脑开启机器人「无休」时代
  • 零跑,不再「摸着理想过河」
  • 硬刚 Sora 2,谷歌的 Veo 3.1 确实有小惊喜|AI 上新
  • 从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈
  • NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式
  • Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线
  • 张鹏对谈朱啸虎、储瑞松、傅盛:Agentic AI 时代,不要什么东西都自己闷头做
  • Real-world Video Super-Resolution | VSR的十字路口
  • Identity-GRPO:阿里开源多人物定制化视频生成的后训练优化算法
  • 蔚来回应外国基金投诉:无事实依据;零跑推D19旗舰SUV,配超大电池;卡西欧推《回到未来》40周年联名表
  • 你的下一个「爱豆」不一定是真人,也可以是AI豆
  • 刚刚,谷歌深夜上新Veo 3.1!网友狂刷2.75亿条,Sora 2要小心了
  • 谷歌142页报告首发揭秘:90%码农每天用AI超2小时!
  • RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法
  • 谷歌×耶鲁联手发布抗癌神器!AI推理精准狙击「隐身」癌细胞
  • GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”
  • ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”
  • 统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”
  • AI 时代,用一场「快闪」改变命运|IF 2026「AI 产品快闪」启动召集!
  • IF 2026 启动:来看看 AI 面前,谁在掌握主动权?
  • 从DNN到MLLM的异常之旅:视频异常检测(VAD)范式大迁徙
  • NeurIPS 2025 | 为Sora视频加上“隐形身份证”:清华大学等提出Safe-Sora,时空频率感知水印新框架
  • 苹果发布 M5 芯片笔记本和 iPad;微信:长时间不用账号,不再强行回收; 乔布斯登上一美元硬币
  • 马斯克的作业还是被奥特曼「抄走了」
  • 苏姿丰出手!Oracle下单5万颗AMD芯片,英伟达王座撼动
  • 具身智能算法哪家强?RoboChallenge见真章!全球首个大规模真机算法评测平台来了
  • NTU等联合提出A-MemGuard:为AI记忆上锁,投毒攻击成功率暴降95%
  • 苹果M5「夜袭」高通英特尔!AI算力狂飙400%,Pro三剑客火速上新
  • TPAMI 2025 | 华中科大与大疆等提出LLF-LUT++:4K照片增强仅需13ms,PSNR提升2.64dB!
  • IDEA提出Rex-Omni:将目标检测变为“下一个点预测”,零样本性能超越DINO
  • AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理
  • 下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达
  • 罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控
  • Altman:ChatGPT将支持成人内容;港版iPhone Air无法用内地eSIM;传雷军一夜掉粉30万|极客早知道
  • Karpathy「疯狂之作」:100美元、4小时,就能训练你自己的「小型GPT」
  • 英伟达AI超算3999开售,「掌心之中」可部署所有大参数开源模型!
  • 登顶Hugging Face GAIA全球榜首!中兴超级智能体终结「AI黑盒」时代
  • AI圈再颠覆!中国AI翻译耳机通话翻译,实测震撼
  • 一个模型装下整个物种树!伯克利GPN-Star斩获基因预测双料冠军
  • vivo X300 Pro:以「水桶旗舰」之躯,重登旗舰山巅
  • 直到毕业我才懂:原来延期的博士,不止我一个
  • 8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板
  • 让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了
  • NeurIPS 2025 | 让AIGC视频变为可探索场景:Instant4D实现单目动态场景的分钟级重建
  • NeurIPS 2025 | PPFN:渐进式提示融合,让红外图像增强在复杂场景下性能提升8.76%
  • 库克抖音带货 iPhone 17 Air,22 日开售;小米客服回应「SU7 门把手」;「丐版」特斯拉明年国内投产
  • 他用一生证明AI没有意识!「中文屋」提出者逝世,享年93岁
  • 今年诺奖成果曾遭质疑无用,但华人团队用它研制了未来芯片的「钥匙」
  • 剑桥揭开大模型翻车黑箱!别再怪它不懂推理,是行动出错了
  • ICLR神秘论文曝光!SAM3用「概念」看世界,重构视觉AI新范式
  • 硅谷爆发反AI「起义」!程序员拒用Cursor被一周解雇
  • 强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”
  • 如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密
  • 国行 eSIM 尘埃落定,iPhone Air「下周见」
  • 为什么谷歌搜不到「没有条纹的衬衫」|AI 上新
  • ACM MM2025 Oral | MoSEAR:为多模态情感推理补齐“冲突场景”的短板
  • SAM 3揭开面纱:不止分割万物,更能理解概念,交互式分割迎来新篇章!
  • 雷军亲自测试,小米YU9实车谍照曝光;宇树获「秧歌机器人」专利;微团开卖「Win XP」蓝天白云拖鞋

浙大推出首个「多图应用题」基准GSM8K-V,全面评估 VLM数学推理能力



  新智元报道  

编辑:LRST
【新智元导读】人类能通过视觉线索轻松完成购物找零等日常推理,但现有AI模型在类似任务中表现欠佳。浙江大学的研究团队将小学数学题转化为多图视觉基准,评估模型能否「看懂」数学,揭示其跨场景推理短板,为下一代通用智能模型发展提供方向。


「小明买了3个苹果,每个5元,他付了20元,应该找回多少钱?」

这是典型的小学数学应用题。但在日常生活中,我们更常遇到的是它的视觉版本:看到货架上的苹果标价牌,数出购物篮里的苹果数量,估算总价,再从收银员手中接过找零,快速判断对不对。

这个过程几乎不需要语言,而是依靠视觉线索完成推理:看到、比较、计算、验证。

语言让我们能以符号方式进行逻辑、推理与知识的传递,但人类真正的理解往往并不止于语言。

人类更擅长通过视觉去「看见」数量、空间与比例,以具象的方式形成抽象的逻辑。

正是在这一理念启发下,研究团队提出了一个关键问题:

「能否将自然语言表述的数学应用题转化为纯视觉形式的多图像问题,从而更真实地评估视觉语言模型(VLMs)的数学推理能力?」

视觉语言模型(VLMs)在图像与文本的联合建模上取得了显著进展,其在视觉问答、多模态理解等任务中表现优异。

但当把数学推理引入视觉场景时,现有模型仍面临明显瓶颈,且现有视觉数学基准存在以下局限:

  • 当前视觉数学基准大多聚焦在几何题,任务范围过窄,无法覆盖实际应用题情形。


  • 几乎没有对数学应用题的视觉化评估,因此无法衡量模型在真实数学理解任务中的能力。


  • 很少涉及多图像跨场景推理,这使得难以检验模型跨场景关联能力。


在文本数学基准GSM8K上,许多模型的准确率已轻松突破 90%,甚至达到或超越人类水平;

然而,当题目被转化为视觉形式后,研究团队发现:多数顶级模型瞬间腰斩,与人类水平存在显著差距。

面对这些问题,浙江大学的研究团队提出了GSM8K-V——将广泛使用的数学基准GSM8K系统性地映射为其视觉对应版本,构建出一个跨场景、多图像的视觉数学推理基准。该基准旨在检验模型是否真正能「看得懂」数学,而不仅仅是「读得懂」文字。

论文链接:https://arxiv.org/abs/2509.25160

项目地址:https://zju-real.github.io/GSM8K-V

代码仓库:https://github.com/ZJU-REAL/GSM8K-V

数据集:https://huggingface.co/datasets/ZJU-REAL/GSM8K-V


基准特点

基准的数据来源可靠:基于GSM8K测试集,共包含1,319道题目,对应5,343张高质量图像,平均每题4张图,最多可达11张。

任务覆盖全面:涵盖6大类、13个子类数学场景,从基础算术、测量、图形识别到时间与比例推理。

跨图推理能力测试:漫画式多场景视觉呈现,通过多场景组合检验模型在不同画面间的逻辑关联能力。


三阶段自动化构建流程


GSM8K-V的核心在于如何让「文字题」变成等价的「视觉题」。

为此,研究团队设计了一套三阶段自动化构建流程,确保视觉题与原始文本题目在语义上一一对应、逻辑一致。

阶段一:问题分解与场景分配


在这一阶段,使用 GPT-4.1 对 GSM8K 中的每道题进行数学信息分解,自动将题目拆解为结构化三元组 (object, math value, semantic),精确标注出每个实体、对应的数值属性及其语义信息。随后,依据如下原则完成场景分配:

语境聚合(Contextual Grouping):同一类型或同一场景的数学信息被归入同一画面;

最终隔离(Final Isolation):题干的提问部分保留在最后一张图,确保推理目标清晰;

原子保真(Atomic Fidelity):严格避免推理性整合,仅保留最基础的数学事实。

此外,还在场景构建中引入多维干扰机制:通过在图像中加入感知干扰(如无关但显眼的物体)和语义干扰(与问题相关但误导性的元素),显著提高模型推理的真实性与挑战性。

阶段二:场景描述生成


为了让图像生成更精准,研究团队设计了基于元策略模板描述体系。针对不同类型的数学元素(如时间、百分比等),预定义专属提示词与视觉表达模板。

每个场景都由 GPT-4.1 生成结构化描述,采用三元组形式:(object:场景中必须出现的核心实体, action:描述对象的状态或动作, composition:定义所有元素在画面中的空间与层次关系)。

这种结构化描述确保了不同场景之间的一致性,为后续图像生成提供了可复现的视觉蓝图。

阶段三:图像生成与交叉验证


在该阶段,团队使用 GPT-Image-1 模型生成多场景漫画式图像,每张分辨率达 1024×1024。所有图像均经过 双重人工交叉验证,确保其准确性与合规性,遵循三条准则:

  • 一致性(Consistency):图像中的实体、数量、约束需完全保留原题语义;


  • 完整性(Completeness):解题所需的全部信息都应在画面中可见;


  • 合规性(Compliance):图像内容需安全、清晰,无模糊或误导元素。


对存在偏差的样本,人工标注者会重新校正场景描述或图像内容,以保证数据集质量与学术可复现性。


实验结果


研究团队在GSM8K-V上系统评测了19个主流视觉语言模型,包括闭源模型Gemini-2.5-Pro、GPT-5,以及开源代表Llama-4、InternVL3.5、Qwen2.5-VL等,全面分析了它们在视觉数学推理任务中的表现。结果揭示了视觉推理任务的巨大挑战性以及人机间显著的差距。

文本推理几近饱和


在传统的GSM8K 文本基准 上,即便是表现最差的模型也能取得78.32%的准确率,而绝大多数模型(14/19)已经轻松突破90%,说明大模型在纯文本数学推理任务上已经接近饱和,甚至达到或超过人类水平。

视觉推理仍是「硬骨头」

当任务从文字转化为视觉场景后,模型的表现却出现了显著下降。在GSM8K-V 上,最强闭源模型Gemini-2.5-Pro仅取得46.93%的准确率,而包括GPT-5、Llama-4-17B-128E在内的模型也仅维持在30%左右。

这表明,VLMs 在面对真实世界的多图像数学推理时依然存在显著短板,尤其是在跨场景关联、多图理解以及数值逻辑一致性方面。

GSM8K-V因此成为一个极具挑战性且具有可持续研究价值的视觉数学推理基准,为未来模型能力提升提供了新的方向。

人机差异:不仅是准确率,更是理解方式


人类在GSM8K-V上的平均准确率高达91.15%,且在所有类别中都保持稳定(86.76%–96.05%)。

相比之下,模型不仅整体准确率偏低,还表现出显著的不均衡性。例如:GPT-5在「 Signboard & Icon 」和「Measurement」类别上表现相对较好(约 41–46%),但在「Other」类别上急剧下滑,仅24.93%。

开源模型Step3在「Physical Metric」和「Temporal」任务中表现尚可,但在其他类型中明显不足于同级模型。

更重要的是,人类与模型在擅长的类别上几乎完全不重合。人类在「Other」类别上的准确率高达 93.25%,甚至超过其在「Signboard & Icon(90.27%)」和「Measurement(86.76%)」上的表现;

而模型恰恰相反,往往依赖视觉符号或数值表征,难以捕捉更抽象的语义逻辑。

这表明,人类的视觉推理更加平衡和可泛化,能够灵活地从图像中建立语义联系;

而现有 VLMs 仍倾向于依赖类别特征或模式匹配,缺乏深层的语义理解与抽象推理能力。


分析与发现

为进一步分析GSM8K-V的稳健性与挑战性,研究团队从输入格式、视觉风格、模态依赖以及错误类型等方面进行了系统消融实验与分析。

结果揭示了视觉数学推理任务中的关键影响因素与典型模型误差模式。

单图与多图输入


在多图输入场景下,模型平均准确率略高于单图拼接输入。研究表明,将问题分解为多张顺序图像有助于模型保持事件的逻辑与时间顺序,从而更接近人类推理过程。

相反,将所有场景拼接为单张图片往往导致语义依存关系被破坏,使模型难以捕捉跨场景的关键推理线索。

单图与多图输入结果

单图与多图输入示例


视觉风格敏感性


GSM8K-V默认采用Pixar风格的视觉渲染,以保证图像清晰、光影自然、语义明确。为检验模型对图像风格的敏感性,研究团队在子集上重绘了Giphli风格版本。

结果显示,不同风格下的模型性能差异极小(通常低于2%),说明GSM8K-V的结果具有较高稳健性,视觉风格变化不会显著影响数学推理表现。

视觉风格结果

视觉风格示例

模态验证实验


为了验证GSM8K-V的任务确实依赖视觉推理而非文本转写,研究团队比较了四种输入模式:文本输入(text-only)、图像输入(image-only)、OCR转写输入以及场景描述输入(caption-based)。

结果表明,OCR模式下性能极低(10%左右),说明模型无法仅通过图像转写的文字获得有效信息,视觉理解在任务中不可或缺。

相比之下,结构化场景描述(caption)模式的表现显著优于纯图像输入,但仍远低于文本任务准确率,表明视觉信息中存在大量隐含语义和空间关系,仍难以通过语言重构完整还原。

模态验证结果

问题表述形式


当问题陈述以文字形式直接嵌入输入中(explicit 模式),模型的准确率略有提升。这说明文本化的提示有助于消除视觉语义指代的歧义。

然而,即使在这种「显式」支持下,模型的准确率依然远低于文本任务(例如 Gemini-2.5-Pro:47.6% vs. 95.2%),表明多模态推理尚未实现真正的语义整合。

Explicit输入示例

Implicit输入示例

Explicit与Implicit结果对比


错误类型分析


在模型错误分布中,研究团队总结出两类典型失误:

感知—计算错误(Perception–Calculation Errors)


模型在面对多个相似物体或细粒度数量区分时,常发生识别错误或类别混淆,进而导致后续计算结果偏差。

例如,模型可能误判物体数量、混淆计价单位,从而直接导致推理崩溃。这类错误暴露出模型在「视觉计数」与「数值绑定」之间的薄弱环节。

仪表读取错误(Instrument-Reading Errors)


当数值信息通过日常工具(如钟表、仪表盘、刻度尺等)呈现时,模型常出现误读或误映射。例如,无法正确读取钟表时间、混淆百分比图表的比例或误判量表刻度。

这类错误揭示了模型在「视觉数感」方面的显著不足。

整体来看,GSM8K-V 揭示了当前视觉语言模型的真实瓶颈:文本推理已趋近饱和,但视觉推理仍是尚未攻克的关键挑战。

这一结果不仅凸显了视觉数学推理任务的研究价值,也为下一代通用智能模型的发展指明了方向:真正的智能,不止能「读懂文字」,还应「看得懂世界」。


作者介绍

论文的共同第一作者是袁凡和颜聿辰。袁凡是浙江大学硕士研究生,主要研究兴趣集中在大模型推理和多模态大模型;颜聿辰是浙江大学博士四年级研究生,主要研究兴趣集中在大模型推理和智能体。本文通讯作者是浙江大学百人计划研究员沈永亮。


参考资料:
https://arxiv.org/abs/2509.25160


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652636161&amp;idx=2&amp;sn=b4e45ace96c66d66d896e8027691a388&amp;chksm=f05258f08863a02271157849f8f34f93a72f340947721a4ebd96146ccd1cc73d939640ef9570&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/mlRJAlJQXv&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们