动态列表

  • 首个AI神作!一人分饰全角,万人围观外星人嘲讽人类灭绝
  • 申研「全拒得」的「差生」,终成PyTorch之父、Meta副总裁!今天跳槽TML
  • 图灵奖得主竟「忘了提及」中国学者成果?马库斯重锤Yann LeCun
  • 永别了,Tokenizer!何恺明师徒新作,颠覆AI生图技术
  • 年度最强AI实锤!谷歌Gemini 3全网首测震撼,一句话编码封王
  • 亚马逊云科技发布Kiro正式版:核心功能升级
  • 对话斑马口语:如何用 AI Agent 造出「超人类外教」?
  • 清华团队“密度法则”登上Nature子刊,揭示大模型高效化发展新规律
  • 点击下载!中国科研人员AI使用率全面领跑:Wiley发布全新调研报告
  • 风口浪尖中的小米汽车,创下国产新势力最快盈利速度
  • CMU新作Co-Me:无需重训,VGGT长序列迎11.3倍加速!
  • 资深技术专家胡成文出任鼎犀智创CTO,共赴新材料智创未来
  • 如视发布空间大模型Argus1.0,支持全景图等多元输入,行业首创!
  • 登顶开源SOTA!上交大&小红书LoopTool实现工具调用任务的「数据进化」
  • NeurIPS 2025 Spotlight | 香港大学提出无需数据标记的ViT密集表征增强方法
  • NeurIPS 2025 | 上下文元学习实现不微调跨被试脑活动预测
  • 刚刚,PyTorch之父光速入职TML!离职Meta刚过一天,投身500亿估值独角兽
  • 何恺明重磅新作:Just image Transformers让去噪模型回归基本功
  • ConsistEdit来了:无需训练,实现高精度、高一致性的视觉编辑新范式
  • Gemini 3深夜来袭:力压GPT 5.1,大模型谷歌时代来了
  • 「30 秒造应用」——蚂蚁灵光点燃「所想即所得」的魔法时刻
  • 视频模型真在推理,还是「表演」推理?港中文等质疑:Chain-of-Frame是真的吗?
  • Gemini 3 正式发布,多榜单断崖式领先;美安全服务商网络中断,ChatGPT、X 受牵连;苹果承认酒精擦拭可能导致手机掉色|极客早知道
  • 4万亿刀,仅3.6万人!英伟达揭残酷真相:劳动正与财富大脱钩
  • 医疗AI智能体全面综述:行业爆发,年增长130%!
  • AI「看见」实验,哈佛颠覆性突破!一副AR眼镜,新手秒变资深专家
  • 震惊电影圈!好莱坞混了10年没出头,他把AI「烂片」做成23万粉爆款
  • Anthropic CEO:最快明年,一半初级白领下岗!失业率将达10%-20%
  • 谷歌 Gemini 3.0 深夜炸场:没有悬念的最强 AI
  • 夸克全面接入千问对话助手,将发布全新AI浏览器
  • Yann LeCun团队新作LeJEPA:仅一个超参数、50行代码,实现可证明、可扩展的自监督学习
  • MIT何恺明团队新作:让扩散模型回归“去噪”本质,简单Transformer即可实现SOTA性能
  • JSON刚死24小时,TOON又被网友玩坏:LLM数据格式彻底乱套了
  • 美团多篇论文入选NeurIPS 2025:从大模型到多模态的全线突破 | 直播预告
  • 阿里千问公测,挑战 ChaGPT;京东上线独立外卖 App;贝佐斯出任 AI 初创公司 CEO
  • 抱歉了GPT-5,这次是中国AI「上岸」了
  • 你急它不急:GPT-5先判断,再决定「速答」还是「深想」
  • Meta开始用KPI考核,强迫所有员工尽可能多使用AI
  • 接招吧,GPT-5.1!
  • 「前三代定律」下,百年吸尘器如何做出新意?
  • 两个月破 300 万用户,Agnes AI 刷新 Instagram 与 Snapchat 增长纪录
  • 每天给白领发 1000 万,他成了硅谷最年轻亿万富翁
  • 2025,中国科技圈进入全面「大乱斗」时代
  • 当 AI 开始分「左右」
  • 阿里云,用全栈 AI 刷新第十七个双十一
  • AAAI 2026 Oral MiniShift+Simple3D:面向高分辨率3D异常检测的可扩展数据集与实时检测新范式
  • AAAI 2026 山大提出DiveSeg:为DINO注入“水下感知力”,实例分割性能提升显著
  • 双重隐式记忆来了!JanusVLN让视觉语言导航真正理解3D空间
  • 让千问APP当一周科研打工人:它比我想的能干,也比我想的累
  • 雷军连发多条微博回应质疑;iPhone 发布方式将在明年重大变革;年度最令人不安的研究:AI 刷多社媒会变蠢|极客早知道
  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒

何恺明团队再出手!将ARC视为视觉问题,ViT从零训练60.4%准确率,达到人类平均水平

CV君 2025-11-19 15:57 江苏

大道至简,或许最直接的方法,才是最有效的方法。

今天来自MIT的Kaiming He(何恺明)等研究者们提出了一种全新的思路来解决被誉为“通用人工智能的试金石”之一的ARC(Abstraction and Reasoning Corpus)基准测试。他们旗帜鲜明地提出观点:ARC本质上是一个视觉问题!基于此,团队设计了一个名为Vision ARC (VARC)的框架,将这个复杂的抽象推理任务巧妙地转化为一个图像到图像的翻译问题,并取得了惊人的成果。

VARC框架的核心思想是,既然ARC中的谜题本质上是视觉化的,为何不直接用最擅长处理图像的计算机视觉模型来解决呢?这一想法打破了以往主流方法依赖大语言模型(LLM)或循环推理模型的思维定式。

研究背景:跳出语言模型的“舒适圈”

ARC基准测试由“Keras之父”François Chollet于2019年提出,旨在衡量AI的抽象和推理能力,这被认为是人类智能的核心特征。ARC包含一系列视觉谜题,每个任务都提供极少数(通常是2-4个)“输入-输出”示例,模型需要从中归纳出隐藏的规则,并应用到新的测试输入上。

如上图所示,一个ARC任务通常包含几个示范(demonstration)样例和一到两个需要模型解答的推理(inference)样例。模型必须从这些有限的示范中学习转换规则。

过去,许多顶尖的方法都试图将这些视觉网格转换成文本序列,然后利用强大的LLM进行“语言化”的推理。虽然取得了一定进展,但这种方法总感觉有些“绕路”,毕竟任务本身是纯视觉的。研究者们认为,很多ARC任务中蕴含的概念,如“反射”、“对称”、“重力”等,都与我们的视觉和物理世界紧密相关。人类解决这些问题时,更多依赖的是视觉经验和空间想象力,而非语言逻辑。

VARC方法详解:回归视觉本源

VARC框架的实现路径非常“直接”,甚至可以说是优雅地简单。它将ARC任务重新定义为一个图像到图像翻译(Image-to-Image Translation)问题,并引入了一套纯视觉的解决方案。

核心设计一:画布(Canvas)表示法

研究者们没有直接使用原始的、大小不一的网格输入,而是引入了一个“画布”的概念。这是一个尺寸固定(例如64x64)的背景板。

如图所示,原始的输入网格会经过随机的缩放(Scale)平移(Translation)变换后,被“贴”到这个画布上。这样做的好处是:

  1. 引入视觉先验:这种处理方式天然地集成了平移和缩放不变性,这是计算机视觉领域处理自然图像的常用技巧,能极大增强模型的泛化能力。

  2. 丰富输入模式:通过将网格划分为图块(patch),一个图块内可以包含多种颜色组合,这比简单地将每个像素视为一个孤立的token要丰富得多,有助于模型学习空间关系,避免过拟合。

核心设计二:标准视觉架构(ViT)

有了画布这样的“类自然图像”输入后,就可以顺理成章地使用强大的视觉模型了。团队选择了标准的Vision Transformer (ViT)作为主力架构。

整个流程如上图:输入网格被放置到画布上,然后像处理一张普通图片一样,被ViT模型进行端到端的处理。为了让模型区分不同的ARC任务,研究者还为每个任务引入了一个可学习的“任务令牌”(Task Token)作为条件输入。同时,为了更好地捕捉图像的二维结构,模型采用了二维位置编码(2D Positional Embedding)。

核心设计三:两阶段训练策略

VARC的训练方式也很有特点,完全从零开始(from scratch),仅使用ARC数据集,不依赖任何外部大规模预训练。

  1. 离线训练(Offline Training):在ARC的400个训练任务上联合训练一个通用的ViT模型。

  2. 测试时训练(Test-time Training, TTT):当遇到一个全新的、未见过的测试任务时,模型会利用该任务提供的几个示例对自身进行快速微调。这个过程相当于让模型在“考试现场”快速学习和适应新规则。

上图生动地展示了测试时训练的效果。随着训练的进行,模型对推理输入的预测(Prediction)越来越接近正确答案(Ground Truth),最终完美解出谜题。

实验结果:令人惊艳的性能

VARC的效果如何?答案是:非常出色。

在ARC-1基准上,VARC的集成模型取得了60.4%的准确率。这是一个极为亮眼的成绩,因为它不仅大幅超越了其他同样从零开始训练的模型(如HRM和TRM),甚至与一些顶级的、参数量大几个数量级的大语言模型不相上下,并且非常接近报告的人类平均水平(60.2%)

上表清晰地展示了VARC与其他方法的性能对比。在“从零训练”这一公平的赛道上,VARC遥遥领先。即使与借助了海量互联网数据预训练的LLM相比,VARC也展现出了极强的竞争力。

视觉先验的重要性

为了证明“视觉化”设计的有效性,论文进行了一系列消融实验。结果表明,从一个朴素的基线模型开始,逐步加入二维位置编码、图块化(Patchification)、平移和缩放增强等视觉先验后,模型性能得到了累计27.7个百分点的巨幅提升

这雄辩地证明了,将ARC作为视觉问题来处理,并充分利用视觉模型成熟的归纳偏置(inductive biases),是通往成功的正确道路。

下图是一些VARC成功解决的挑战性任务,展示了模型强大的视觉推理能力。

可视化分析:模型在“看”什么?

为了探究VARC到底学到了什么,研究者们还对模型的内部机制进行了可视化。通过分析注意力图,他们发现模型确实在学习有意义的视觉模式。

例如,将400个训练任务对应的“任务嵌入”进行t-SNE降维可视化后,可以发现语义上相似的任务(例如都与“着色”或“逻辑运算”相关)在嵌入空间中聚集在了一起。这表明模型不仅仅是在死记硬背,而是在学习任务之间的抽象关系。

总结与思考

这项工作最核心的贡献,是为解决ARC这类抽象推理问题提供了一个全新的、极具潜力的“视觉为中心”的范式。它证明了,抽象和推理能力可以直接从像素中涌现,而无需依赖语言作为中间媒介。

VARC的成功不仅为ARC挑战开辟了一条新路,也促使我们重新思考视觉模型在通用认知任务中的潜力。未来,通过更强大的视觉架构、更丰富的视觉先验,甚至结合大规模图像预训练,这条路或许能走得更远。

大家对这种“返璞归真”的视觉方法怎么看?欢迎在评论区留下你的看法!

阅读原文

跳转微信打开

联系我们