CV君 2025-11-19 15:57 江苏
大道至简,或许最直接的方法,才是最有效的方法。
论文标题: ARC Is a Vision Problem!
作者: Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He
机构: 麻省理工学院 (MIT)
今天来自MIT的Kaiming He(何恺明)等研究者们提出了一种全新的思路来解决被誉为“通用人工智能的试金石”之一的ARC(Abstraction and Reasoning Corpus)基准测试。他们旗帜鲜明地提出观点:ARC本质上是一个视觉问题!基于此,团队设计了一个名为Vision ARC (VARC)的框架,将这个复杂的抽象推理任务巧妙地转化为一个图像到图像的翻译问题,并取得了惊人的成果。
VARC框架的核心思想是,既然ARC中的谜题本质上是视觉化的,为何不直接用最擅长处理图像的计算机视觉模型来解决呢?这一想法打破了以往主流方法依赖大语言模型(LLM)或循环推理模型的思维定式。
研究背景:跳出语言模型的“舒适圈”
ARC基准测试由“Keras之父”François Chollet于2019年提出,旨在衡量AI的抽象和推理能力,这被认为是人类智能的核心特征。ARC包含一系列视觉谜题,每个任务都提供极少数(通常是2-4个)“输入-输出”示例,模型需要从中归纳出隐藏的规则,并应用到新的测试输入上。
如上图所示,一个ARC任务通常包含几个示范(demonstration)样例和一到两个需要模型解答的推理(inference)样例。模型必须从这些有限的示范中学习转换规则。
过去,许多顶尖的方法都试图将这些视觉网格转换成文本序列,然后利用强大的LLM进行“语言化”的推理。虽然取得了一定进展,但这种方法总感觉有些“绕路”,毕竟任务本身是纯视觉的。研究者们认为,很多ARC任务中蕴含的概念,如“反射”、“对称”、“重力”等,都与我们的视觉和物理世界紧密相关。人类解决这些问题时,更多依赖的是视觉经验和空间想象力,而非语言逻辑。
VARC方法详解:回归视觉本源
VARC框架的实现路径非常“直接”,甚至可以说是优雅地简单。它将ARC任务重新定义为一个图像到图像翻译(Image-to-Image Translation)问题,并引入了一套纯视觉的解决方案。
核心设计一:画布(Canvas)表示法
研究者们没有直接使用原始的、大小不一的网格输入,而是引入了一个“画布”的概念。这是一个尺寸固定(例如64x64)的背景板。
如图所示,原始的输入网格会经过随机的缩放(Scale)和平移(Translation)变换后,被“贴”到这个画布上。这样做的好处是:
引入视觉先验:这种处理方式天然地集成了平移和缩放不变性,这是计算机视觉领域处理自然图像的常用技巧,能极大增强模型的泛化能力。
丰富输入模式:通过将网格划分为图块(patch),一个图块内可以包含多种颜色组合,这比简单地将每个像素视为一个孤立的token要丰富得多,有助于模型学习空间关系,避免过拟合。
核心设计二:标准视觉架构(ViT)
有了画布这样的“类自然图像”输入后,就可以顺理成章地使用强大的视觉模型了。团队选择了标准的Vision Transformer (ViT)作为主力架构。
整个流程如上图:输入网格被放置到画布上,然后像处理一张普通图片一样,被ViT模型进行端到端的处理。为了让模型区分不同的ARC任务,研究者还为每个任务引入了一个可学习的“任务令牌”(Task Token)作为条件输入。同时,为了更好地捕捉图像的二维结构,模型采用了二维位置编码(2D Positional Embedding)。
核心设计三:两阶段训练策略
VARC的训练方式也很有特点,完全从零开始(from scratch),仅使用ARC数据集,不依赖任何外部大规模预训练。
离线训练(Offline Training):在ARC的400个训练任务上联合训练一个通用的ViT模型。
测试时训练(Test-time Training, TTT):当遇到一个全新的、未见过的测试任务时,模型会利用该任务提供的几个示例对自身进行快速微调。这个过程相当于让模型在“考试现场”快速学习和适应新规则。
上图生动地展示了测试时训练的效果。随着训练的进行,模型对推理输入的预测(Prediction)越来越接近正确答案(Ground Truth),最终完美解出谜题。
实验结果:令人惊艳的性能
VARC的效果如何?答案是:非常出色。
在ARC-1基准上,VARC的集成模型取得了60.4%的准确率。这是一个极为亮眼的成绩,因为它不仅大幅超越了其他同样从零开始训练的模型(如HRM和TRM),甚至与一些顶级的、参数量大几个数量级的大语言模型不相上下,并且非常接近报告的人类平均水平(60.2%)。
上表清晰地展示了VARC与其他方法的性能对比。在“从零训练”这一公平的赛道上,VARC遥遥领先。即使与借助了海量互联网数据预训练的LLM相比,VARC也展现出了极强的竞争力。
视觉先验的重要性
为了证明“视觉化”设计的有效性,论文进行了一系列消融实验。结果表明,从一个朴素的基线模型开始,逐步加入二维位置编码、图块化(Patchification)、平移和缩放增强等视觉先验后,模型性能得到了累计27.7个百分点的巨幅提升。
这雄辩地证明了,将ARC作为视觉问题来处理,并充分利用视觉模型成熟的归纳偏置(inductive biases),是通往成功的正确道路。
下图是一些VARC成功解决的挑战性任务,展示了模型强大的视觉推理能力。
可视化分析:模型在“看”什么?
为了探究VARC到底学到了什么,研究者们还对模型的内部机制进行了可视化。通过分析注意力图,他们发现模型确实在学习有意义的视觉模式。
例如,将400个训练任务对应的“任务嵌入”进行t-SNE降维可视化后,可以发现语义上相似的任务(例如都与“着色”或“逻辑运算”相关)在嵌入空间中聚集在了一起。这表明模型不仅仅是在死记硬背,而是在学习任务之间的抽象关系。
总结与思考
这项工作最核心的贡献,是为解决ARC这类抽象推理问题提供了一个全新的、极具潜力的“视觉为中心”的范式。它证明了,抽象和推理能力可以直接从像素中涌现,而无需依赖语言作为中间媒介。
VARC的成功不仅为ARC挑战开辟了一条新路,也促使我们重新思考视觉模型在通用认知任务中的潜力。未来,通过更强大的视觉架构、更丰富的视觉先验,甚至结合大规模图像预训练,这条路或许能走得更远。
大家对这种“返璞归真”的视觉方法怎么看?欢迎在评论区留下你的看法!