动态列表

  • LLM首次达到人类语言专家水平!OpenAI o1拿下拆解句法、识别歧义、推理音律
  • 仅2天!谷歌AI破解十年谜题,锁定救命药人类全失手
  • 终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」
  • AI六巨头罕见同台!李飞飞激辩LeCun,黄仁勋:你们都错了
  • 10.58 万!零跑造了一台「红米 YU7」
  • 当一家传统车企,终于决定「师中长技」
  • AI热潮推动,全球 DRAM 内存价格暴涨;泡泡玛特回应直播事故;媒体爆料iPhone 18 Pro工程机进展
  • 强化学习教父重出江湖, 生成式AI的时代要结束了?
  • 英伟达新架构引爆全模态大模型革命,9B模型开源下载即破万
  • 投85份简历0 Offer!CS研究生心态崩了,亲历20年最猛裁员潮
  • 视频模型假装在推理?MME-CoF新基准评估12个推理维度
  • Ilya、小扎之后,苏莱曼的「超级智能」进入7年倒计时!
  • TCSVT 25 | 宁波诺丁汉大学等提出De-LightSAM:仅需SAM-H 2%参数,实现通用化医疗影像自动分割
  • IROS 2025 | 北理工提出BoRe-Depth:仅8.7M参数,在嵌入式设备实现50.7 FPS高清深度估计
  • 有些答案,听 AI 说一百遍,不如和「最有料的人」聊一次
  • 工程&计算机领域前沿洞察 | Synthesis技术前沿报告合集
  • 上交大刘鹏飞团队:Context Engineering进入2.0,上下文成为可操作对象
  • 用 AI 做电商真实效果如何?我们调研了双 11 一线从业者
  • 马斯克 1 万亿美元的薪酬方案获特斯拉股东批准;东方甄选孙东旭离职;Altman:今年 OpenAI 年化收入将达 200 亿美元
  • 蔚来,破 4 万!
  • 今年双十一最大的赢家是这张表
  • 复旦大学&StepFun提出WithAnyone:告别“复制粘贴脸”,实现可控、高保真的多人ID一致性生成
  • 大道至简,中科院等提出OneRef:统一视觉定位和指代分割
  • 极客公园创新大会 2026 首批嘉宾揭晓!
  • 自回归不必按token算了:微信AI × 清华用CALM直接「整段」预测
  • 北京内推 | 美团招聘大模型算法实习生(IM全渠道)
  • 达摩院联合浙大、港理工推出PixelRefer:多模态大模型迈向像素级视觉理解
  • Altman 怒喷 OpenAI 唱衰者;小鹏发布新一代人形机器人 IRON;苹果支付 10 亿美金,新 Siri 将引入谷歌 Gemini|极客早知道
  • 别被一堆Strong Accept吓住:德州农工×康奈尔实锤论文晒分“系统性虚高”
  • 记忆让机器人更聪明:原力灵机提出MemoryVLA化解长时程任务操作难题
  • 博士申请 | 南洋理工大学王琦琛老师课题组招收数据库方向全奖博士/博后
  • 151% 的增长背后,它正在成为 AI 的「新入口」
  • 清华&南洋理工等提出稀疏模型反演:ViT反演加速高达3.79倍,告别无效背景!
  • 低光图像增强新探索:SASW-Loss,无需改网络,即插即用提升多种模型性能
  • 山姆更新后遭会员疯狂吐槽;Switch2 销量破千万;小米马志宇警告存储涨价:明年最新的成本预估“有点惊悚”|极客早知道
  • Sketch-to-Layout,从草图到布局!DeepMind & EPFL 在设计领域的新工作
  • 为物理AI打造世界模型!英伟达发布Cosmos-2.5:模型缩小3.5倍,性能媲美SOTA
  • NeurIPS25 | 香港理工&OPPO&哈佛提出DNAEdit:直接噪声对齐让Rectified flow文生图编辑更加准确
  • 这个不「瞎 BB 」的 AI 硬件,给了我真正的「陪伴」丨New Things
  • Rokid 乐奇联手 BOLON 眼镜:眼镜巨头依视路的中国棋局
  • 跟一位日本比亚迪车主聊了聊,才明白我们对「出海」有多天真
  • 宁德时代赚走185亿,车企却不想再给「宁王」打工了
  • 从「绝望」到一轮融资43亿元:新石器做对了什么?
  • NeurIPS 2025 | 用蛋白质动态词表“搭积木”,ProDVa高效组装可折叠新蛋白
  • 全注意力、复杂推理不掉速:MiniMax M2把Agent做成了「可执行能力」
  • 北京内推 | 阿里通义实验室对话智能团队招聘大模型方向研究型实习生
  • 豆包,正在悄悄开启「电商新链路」
  • OpenAI 与 AWS 达成 380 亿美元算力合作;新 Siri 付费采用 Gemini;字节试行「豆包股」 | 极客早知道
  • Karpathy点赞NUS新研究:RL微调不稳定的关键根源,指向BF16精度本身
  • ICCV 2025 | 高德提出SeqGrowGraph:以序列化图扩展革新车道拓扑生成
  • 我体验了一下 AI 时代的「家」:快跑,到处都是 AI
  • 每天都和 AI 聊天,你可能已经是个「神经病」
  • 苹果,一赚「解」千愁
  • 多媒体顶会ACM MM 2025 最佳论文公布,从“看懂”到“会用”,再到“会思考”:揭示AI与物理世界融合新篇章
  • 顶刊ISPRS (IF 12+) | 400+参考文献,遥感图像超分辨率最新综述!
  • AMD发布E-MMDiT:仅304M参数,单节点1.5天训练,实现高效图像合成新基准
  • T1 零封 TES 战队,中国战队无缘 S15 总决赛舞台;英伟达合作制药巨头打造超级计算机;理想汽车汤靖详解 MEGA 起火事件|极客早知道
  • NeurIPS 2025 | 电子科技大学联合A*STAR提出SCOPE:兼顾显著性与覆盖率,实现高效多模态大模型令牌剪枝
  • ICCV 2025 | 卡内基梅隆大学空间可变自动对焦:单次拍摄实现全场景清晰,重新定义计算摄影
  • 特斯拉 Cybercab 实车曝光,部分量产;何小鹏谈雷军竞争:未来更期待对手是小米;黄仁勋完成 10 亿美元股票出售

仅0.2B就比GPT-4.1强?加州大学新指标:组合推理基准首次超越人类



  新智元报道  

编辑:LRST
【新智元导读】加州大学河滨分校团队发现,AI组合推理表现不佳部分源于评测指标过于苛刻。他们提出新指标GroupMatch和Test-Time Matching算法,挖掘模型潜力,使GPT-4.1在Winoground测试中首次超越人类,0.2B参数的SigLIP-B16在MMVP-VLM基准测试上超越GPT-4.1并刷新最优结果。这表明模型的组合推理能力早已存在,只需合适方法在测试阶段解锁。

前沿的人工智能模型虽然在众多任务上取得了显著进展,但研究发现,它们在组合推理 (compositional reasoning) 方面仍表现不佳,在多个经典基准测试上甚至低于随机猜测水平。

加州大学河滨分校Yinglun Zhu研究团队重新审视了这一问题,发现其根源之一在于评测指标本身——它系统性地低估了模型的真实能力。

博客链接:https://yinglunz.com/blogs/ttm.html

论文链接:https://arxiv.org/pdf/2510.07632

代码链接:https://github.com/yinglunz/test-time-matching 

团队据此提出了新的GroupMatch指标,能够挖掘被现有评测掩盖的潜在能力,使GPT-4.1首次在Winoground基准测试上超越人类表现。

基于这一洞见,团队进一步提出一种无需外部监督、能够自我改进的迭代算法Test-Time Matching(TTM),可在模型推理阶段显著提升性能。

得益于TTM,仅0.2B参数的SigLIP-B16就在MMVP-VLM基准测试上超越了GPT-4.1,刷新了当前最优结果。


研究背景


组合推理(compositional reasoning)体现了AI是否具备「举一反三」的能力——能否将对象、属性和关系重新组合,去理解新的情境。

像Winoground这样的基准测试通过2×2群组设计来考察这种能力:其中两条文本用词相同但顺序不同,每条只对应其中一张图像。

尽管这些模型在多模态任务中表现出强大能力,但对比式视觉语言模型(VLMs)和多模态大语言模型(MLLMs)在这类基准测试中表现依然有限。

在Winoground基准测试上,即便是前沿模型的得分也远低于人类水平(约85.5分);

此前的最佳结果仅为58.75,且是通过对GPT-4V进行scaffolding和prompt tuning实现的。


重新审视评测指标
从随机猜测到群组匹配


加州大学河滨分校(UCR)研究团队发现,模型在组合推理任务中的低分,部分源自评测指标本身。

当前广泛使用的GroupScore指标过于严格:它要求每张图像都与正确的文本匹配、每段文本也与正确的图像匹配,但并不检查整个群组的全局一致性

只要有一次错配,整组得分就会被判为0。

假设每组包含k张图像和k条文本描述,GroupScore只逐一检查图像与文本之间的匹配情况,而忽略整体关系。

在随机匹配下,成功率仅为 (k−1)! / (2k−1)!;当k = 2时,这个概率只有六分之一。

为解决这一问题,团队提出了新的GroupMatch指标,用于评估群组内的整体最优匹配,而不是孤立的成对比较。

GroupMatch会考虑所有可能的匹配方式(共k!种),并选择最可能的那一个。

这样,在随机猜测下的成功率提升为1 / k!——当k = 2时为二分之一,比原来的六分之一大幅提高。

更关键的是,如果模型能在GroupMatch下找到正确匹配,只需在测试阶段对该匹配进行过拟合,就能在原始GroupScore下获得满分。

基于这一发现,团队提出了一个简单的SimpleMatch两步法:

1. 使用 GroupMatch 选择最可能的匹配;

2. 在测试阶段对该匹配进行过拟合。

如上图所示,SimpleMatch揭示了模型中大量「被隐藏」的潜力——它让仅有0.2B参数的SigLIP-B16超越了此前所有结果,并使GPT-4.1首次在Winoground上超过人类表现。


Test-Time Matching
在测试阶段自我迭代提升模型能力


为进一步提升模型表现,UCR研究团队提出了一种无需外部监督、能够自我改进的迭代算法Test-Time Matching (TTM)

每次迭代包括三个步骤:

1. 模型对所有群组进行匹配预测;

2. 仅保留置信度高的匹配(即得分差距超过阈值)作为伪标签,并在这些伪标签上自我微调;

3. 随着迭代进行,逐步放宽阈值,以纳入更多样本。

TTM的核心在于两点:

1. 基于GroupMatch的伪标签能更有效地利用群组结构,提供更强的监督信号;

2. 阈值的逐步衰减机制让模型先从高置信数据学习,再逐步扩展覆盖范围。

这一算法可以看作测试时训练 (test-time training) 的一种形式,结合了自训练 (self-training)、半监督学习 (semi-supervised learning) 和主动学习 (active learning) 的思想。

从实验结果来看,TTM在多个数据集和模型上都稳定优于 SimpleMatch:相对性能提升最高可达 10.5%,相对错误率下降54.8%

值得注意的是,TTM让SigLIP-L16在ColorSwap数据集上提升至GPT-4.1的水平,并使SigLIP-B16(仅0.2B参数)在MMVP-VLM上超越GPT-4.1,刷新了当前最优结果


TTM的广泛适用性


虽然前面的结果主要基于方形群组(k×k)的组合推理任务,但TTM同样适用于矩形群组,甚至是没有群组结构的数据集。

指标变化不带来提升的情况


在只有1×k结构的群组中,GroupMatch与GroupScore等价,因此单纯更换指标并不会改进结果。

即便如此,TTM在SugarCrepe和WhatsUp等数据集上依然带来了显著提升,其中在WhatsUp上的相对增幅高达85.7%,让原本困难的任务变得可解。

无群组结构的情况


TTM还能将整个数据集视为一个全局的「图像-文本匹配问题」(assignment problem),并在多项式时间内求解。

即使将Winoground、MMVP-VLM和ColorSwap等数据集全部「打平」为无群组结构,TTM依然能显著提升表现,最高可带来33.3%的相对错误率下降。


讨论与展望


UCR研究团队重新审视了多模态模型在组合推理上的长期难题,指出:许多被认为的「失败」,其实源自评测指标的局限。

团队提出的GroupMatch指标与Test-Time Matching (TTM) 算法表明,模型的组合推理能力早已存在——只需要在测试阶段,用合适的方法将其「解锁」。

在覆盖16个不同数据集变体的系统实验中,TTM在多种设置下都展现出稳定而显著的改进,推动了多模态推理研究的前沿进展。

展望未来,团队认为有两个方向值得进一步探索:

  • 重新思考模型评估:同一个模型在不同指标下可能表现出截然不同的能力,这提醒我们需要建立更稳健、更统一的评测框架。

  • 将TTM推广至组合推理之外:虽然TTM起源于组合推理,但它的核心思想——在测试阶段进行匹配式自训练——具有普适性。该思路有望在更广泛的多模态和语言任务中发挥作用,推动AI模型迈向真正的「自适应、自进化」。

参考资料:
https://arxiv.org/pdf/2510.07632


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652643255&amp;idx=2&amp;sn=4a53c472c9e03fe6e144babea02f678d&amp;chksm=f014766e2c41958614da181ff2e8dcdb32c3b86da866ae383db2199aa92736209ec5ba9fad43&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/F37nQigMx1&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们