动态列表

  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道
  • 吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
  • 打开高德的理由又多一条!全球首个「需求链智能调度」AI地图上线
  • 核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相!
  • 一句话搞定多任务出行,高德用空间智能重新定义地图
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
  • 谷歌开源Gemma 3 270M,性能超越Qwen 2.5同级模型
  • 追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
  • Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
  • 多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
  • Science封面:高效精准模拟构象变化,微软研究院用生成式AI重塑蛋白质功能研究
  • 扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
  • AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
  • LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
  • xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情
  • 链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
  • 李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍
  • ChatGPT会让大脑退化?OpenAI高管用它救下自己「读写障碍」的女儿
  • 谷歌超级编码智能体正式上岗!125刀大会员,每天300任务任意跑
  • Meta华人天才毕树超「叛逃」预言:OpenAI未竟交互革命,暗藏万亿赛道
  • 美国CS就业梦碎!狂投5000家0 Offer,名校毕业00后被麦当劳惨拒
  • 3 分钟,我学会了像鸟儿一样飞行 | New Things
  • 从隐私计算迈向六大数据流通全栈技术,“隐语”开源社区升级
  • 7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本
  • 小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!
  • 对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」
  • 告别「偏科生」时代!36 万的坦克500,让对手从此无路可走
  • 万字长谈王小川:不再迎合他人做学霸,我要解自己的命题
  • 刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
  • ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘
  • 复旦&微软提出StableAvatar: 首个端到端“无限时长”音频驱动的人类视频生成新框架!
  • 千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
  • 冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
  • ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
  • 苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
  • GNN+KAN,把三角函数当「激活」选项,山大、南洋理工让分子图更会读化学子结构
  • 港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
  • 破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
  • AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道
  • 奥特曼公然叫板马斯克!重金杀入脑机接口,硅谷两大巨头彻底决裂
  • AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
  • 马斯克删除xAI「研究员」职位引爆网络!LeCun怒批:如此暴力将扼杀创新
  • OpenAI女CEO太狠了!智商148,GPT-5才是真印钞机
  • AI 和海外游戏发力,腾讯重回 7000 亿美金
  • 博士申请 | 休斯敦大学计算机系刘锦阳老师招收高性能计算/数据压缩方向博士生
  • Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?
  • ICML 2025 | 奖励模型还用人标?APEC用对抗模仿生成偏好,泛化能力直线上升
  • Attention Sink的起源找到了?清华×美团首次锁定MoE中的「超级专家」
  • 告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
  • AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」
  • Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
  • AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
  • 研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
  • 多模态大脑建模技术迈入新纪元:Meta 10亿参数模型获Algonauts 2025大脑建模竞赛冠军
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
  • 当人们怀念 GPT-4o,他们在「怀念」什么?
  • IEEE TPAMI 南洋理工&哈工大提出 MARCONet++ 攻克中文文本图像超分难题
  • 耶鲁&大连理工&南洋理工等提出MDCNeXt:X射线下的“动力电池缺陷精准检测”新范式
  • 6秒造一个「视频博主」,Pika让一切图片开口说话
  • 破解AI创企的「不可能三角」,解药不止「大模型」
  • OpenAI和奥特曼将投资一家脑机接口公司,直接与马斯克的Neuralink竞争
  • 大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
  • 传 DeepSeek-R2 8 月发布;微信测试信用借款功能;Perplexity 要 345 亿美元收购 Chrome
  • 一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
  • AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
  • 物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
  • 刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开
  • 让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
  • 从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
  • 破解效率与成本难题:华为UCM技术推动AI推理体验升级
  • SIGGRAPH上,英伟达发布物理AI开源新技术,更新RTX Pro产品线
  • 身家25亿刀,是四家公司创始人,这位伯克利教授还在给本科生上课
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
  • 北京内推 | 度小满金融视觉和多模态团队招聘视觉多模态算法实习生
  • 实验室抢显卡抢破头?A800/H800骨折价来袭,超值返券助你轻松冲DDL!
  • 后训练轻量「小枝」强势出击!极限剪裁视觉token,推理加速154%
  • ICCV 2025 | LightSwitch:CMU提出材质引导的扩散模型,2分钟实现高质量三维场景重打光
  • TCSVT 2025 | 跨模态学习助力复杂工业过程异常检测:FmFormer框架与基准测试新突破
  • AI全面挖掘微蛋白价值:首次引入合成负样本训练,剔除92%噪声,摆脱保守依赖
  • 是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
  • 东方理工·甬江论坛|新大学、新使命,邀你共启未来
  • LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
  • ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
  • 聚焦前沿,见证未来!「X·创新』产品SHOW圆满举办!
  • 刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
  • Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
  • 雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元
  • OpenAI开源霸权5天终结,百川M2一战夺冠!实测比GPT更懂中国医疗
  • 硅谷精英放弃生娃!MIT女记者揭秘:人类只是AI垫脚石,世界很快就毁灭
  • 41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
  • 2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
  • 昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周
  • 世界机器人大会:笨拙的今天,与狂奔的明天
  • 「一只手有几根手指」,你的GPT-5答对了吗?
  • 4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
  • 智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
  • 从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
  • ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
  • 脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
  • 第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
  • 机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
  • Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
  • 具身智能技术与应用论坛圆满举行,北京人形公布多项创新成果
  • ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法,让LLM学会解读蛋白质网络
  • 宇树、银河通用都在用:英伟达「物理AI」技术亮相世界机器人大会
  • CVPR 2025 | DPC:用于微调视觉-语言模型的双提示协作
  • ICCV 2025 | 终结灾难性遗忘!南大提出外部知识注入机制,刷新CLIP持续学习SOTA
  • 超越样本级RL!人大×快手提出ARPO:熵驱动Agent探索,多轮推理性能飙升
  • 北京/上海内推 | 盛大集团AI创新中心招聘大模型/Agent方向算法实习生
  • 毒液抗菌搭配深度学习,千万级数据组中筛得386条备选,91.4%体外验证成功

400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?

还记得分层推理模型(Hierarchical Reasoning Model,HRM)吗?

这项工作于 6 月份发布,当时引起了不小的轰动——X/Twitter 上的相关讨论获得了超过 400 万的浏览量和数万个点赞,剖析这项工作的 YouTube 视频观看量也超过了 47.5 万次。

b38f0cb5-c1e4-4a70-93da-d9d791775eba.png

在论文中,作者表示:他们提出了一种受大脑启发的 HRM 架构,仅用 1000 个训练任务和一个 2700 万参数(相对较小)的模型,就在 ARC-AGI-1 基准上取得了 41% 的得分。

论文还指出,这一架构有潜力成为迈向通用计算和通用推理系统的变革性进展。

鉴于该方法的普及度和新颖性,来自 ARC PRIZE 团队的研究者着手在 ARC-AGI-1 半私有数据集(一个用于验证解决方案是否过拟合的隐藏保留任务集)上验证 HRM 的性能。

他们的发现有些出人意料。

首先:他们能够近似复现论文中声称的数字。HRM 在 ARC-AGI 半私有集上的表现,就其模型大小而言,令人印象深刻:

  • ARC-AGI-1:32%——虽然不是 SOTA 水平,但对于如此小的模型来说,这已经非常出色。

  • ARC-AGI-2:2%——尽管得分大于 0% 显示出一些积极信号,但 ARC PRIZE 团队不认为这在 ARC-AGI-2 上取得了实质性进展。

与此同时,通过运行一系列消融分析,他们得到了一些令人惊讶的发现,这些发现对围绕 HRM 的主流论述提出了质疑:

图片
  1. 与同等规模的 Transformer 相比,其「分层」架构对性能的影响微乎其微

  2. 然而,论文中相对提及较少的「外循环」优化过程,尤其是在训练期间,极大地提升了性能

  3. 跨任务迁移学习的益处有限;大部分性能来自于对评估时所用特定任务解决方案的记忆

  4. 预训练的任务增强至关重要,尽管只需 300 次增强就已足够(而非论文中报告的 1000 次)。推理时的任务增强影响有限

发现 2 和 3 表明,该论文的方法在根本上与 Liao 和 Gu 提出的「无预训练的 ARC-AGI」方法相似。

有人认为,ARC PRIZE 团队的这些分析结果表明,HRM 是一个失败的探索。

62416a74-862c-4c23-aa7d-97f42c92dd47.png

但更多人反驳说,与在同一基准上表现类似的模型相比,HRM 要小得多。虽然分层架构的作用没有得到验证,但论文在其他方面的创新依然值得研究,毕竟模型的表现还是很好的。

b4e8bd91-2511-415d-b1f3-00d952050528.png

03c28451-5698-4d11-8b6e-26e01db8f763.png

针对这一分析,ARC PRIZE 团队专门写了一篇博客来详细介绍。以下是博客内容。

a5b72adf-f4a0-4ccf-ae0c-759e46943942.png

  • 博客地址:https://arcprize.org/blog/hrm-analysis

  • Github:https://github.com/arcprize/hierarchical-reasoning-model-analysis

「分层推理模型」回顾

image.png

       图 1:HRM 方法从大脑中不同频率的信号处理中汲取灵感。

分层推理模型由新加坡 AI 研究实验室 Sapient 发表,据称其灵感来源于人脑的分层和多时间尺度处理机制。

HRM 是一个 2700 万参数的模型,它通过几次简短的「思考」脉冲进行迭代优化

每次脉冲产生:

  • 一个预测输出网格——这是模型对 ARC-AGI 任务的「处理中」预测。

  • 一个「停止或继续」得分——该得分决定是继续优化预测还是将其作为最终结果提交。

如果模型选择继续优化,这个「处理中」的预测会再次经过一个「思考」脉冲。这就是外循环:预测、询问「我完成了吗?」,然后停止或继续优化。

在外循环内部,HRM 运行两个耦合的循环模块:「H」(慢速规划器)和「L」(快速执行器)。这两个模块协同工作,共同更新一个共享隐藏状态,而非各自产生独立的输出。其最终效果是模型在「规划」(H)和「细节」(L)之间交替进行,直到内部状态「自我达成一致」并产生答案。

该模型使用一个学习到的「停止」信号,这是一种自适应计算机制,用于控制优化的次数。

这个过程的一个关键部分是任务增强。这是一个对每个任务应用变换(如对象旋转、翻转等)的过程,目的是挖掘出任务的潜在规则,而不是对特定的形状或颜色产生过拟合

在测试时,模型会运行相同的增强来生成预测。这些预测随后被「去增强」(以恢复到原始任务格式),然后通过简单的多数投票来决定最终的预测结果。

预测是通过转导(深度学习的直接输出)在嵌入空间中进行的,而不是通过归纳(生成一个可应用变换的程序)。关于 ARC-AGI 中转导与归纳的更多信息,请参阅 2024 年 ARC Prize 获奖论文《结合归纳与转导进行抽象推理》,作者为 Wen-Ding Li 等人。

ARC-AGI 验证流程

ARC-AGI 基准有 3 个主要的数据集用于测试:

  • 公开训练集 - 用于介绍 ARC-AGI 数据格式的公开数据。研究人员在此数据上训练和迭代模型。

  • 公开评估集 - 供研究人员在训练后自我评估模型性能的公开数据。

  • 半私有评估集 - 一个保留数据集,用于验证在 ARC-AGI 上的声明。该数据集无法在线获取用于训练,从而增加了其提供模型性能纯净信号的可信度。它被称为「半私有」,因为验证第三方服务(如来自 OpenAI、xAI 的模型)意味着我们无法保证数据永远完全保密,并且计划最终会替换它。

除了这些数据集类型,ARC-AGI 目前有 2 个已发布的版本:

  • ARC-AGI-1——2019 年,旨在挑战深度学习系统。

  • ARC-AGI-2——2025 年,旨在挑战推理系统。

我们根据测试政策,对像 HRM 这样的特定定制解决方案进行测试。要获得验证资格,解决方案必须开源,运行成本低于 1 万美元,并在 12 小时内完成。

官方验证的 HRM ARC-AGI 得分

image.png

      图 2:ARC-AGI-1 排行榜,HRM 性能与每项任务成本。

ARC-AGI-1(100 个任务)

  • 得分:32%,运行时间:9 小时 16 分钟,总成本:$148.50($1.48 / 任务)

在 ARC-AGI-1 上获得 32% 的得分,对于如此小的模型来说是令人印象深刻的。从 HRM 声称的公开评估集得分(41%)下降到半私有集得分,这种轻微的下降是预料之中的。ARC-AGI-1 的公开集和半私有集并未进行难度校准。观察到的 9 个百分点的下降幅度处于正常波动的偏高范围。如果模型对公开集过拟合,其在半私有集上的性能可能会崩溃(例如,降至 10% 或更低)。但我们并未观察到这种情况。这个结果表明,HRM 确实有一些值得关注的亮点。

注意:运行 HRM 的成本相对较高,是因为训练和推理被耦合在单次运行中。论文作者提到他们正在努力解耦这个过程,以便将其解决方案提交给 ARC Prize 2025 Kaggle 竞赛。

ARC-AGI-2(120 个任务)

  • 得分:2%,运行时间:12 小时 35 分钟,总成本:$201($1.68 / 任务)

ARC-AGI-2 明显比 ARC-AGI-1 更难,因此性能大幅下降是预料之中的。与 ARC-AGI-1 不同,ARC-AGI-2 的公开集和半私有集是经过难度校准的。原则上,两者上的得分应该相似。尽管大于 0% 的得分显示出模型的某些能力,但我们不认为 2% 的得分是在 ARC-AGI-2 上取得的有意义的进展。

注意:我们选择包含 10 个可选的检查点(每个约 5 分钟),总共增加了约 50 分钟。虽然 HRM 的提交超出了 12 小时的运行限制,我们仍然认为它是有效的。

分析 HRM 对 ARC 得分的贡献

在更深入的分析中,我们最想回答的问题是:「HRM 架构中对 ARC-AGI 的成功贡献最大的关键组件是什么?

我们仔细研究了 HRM 论文的 4 个主要组成部分:HRM 模型架构、H-L 分层计算、外层优化循环,以及数据增强的使用。Ndea 研究员 Konstantin Schürholt 主导了这项分析。

我们测试了:

  • 「分层」H 和 L 循环的性能贡献

    相比于基础的 Transformer,HRM 提供了多少性能提升?

    改变分层计算的参数有何影响?

  • 改变最大「停止或继续」循环次数

    自适应计算时间(ACT)评分器与固定循环次数(没有停止决策)相比表现如何?

  • 跨任务迁移学习的影响

    与仅在评估任务上训练相比,在训练时加入训练集任务和 ConceptARC 任务有何影响?

  • 增强数量

    改变从每个任务创建的增强数量。

  • 模型/训练的变体(大小和时长)

发现 1:与同等规模的 Transformer 相比,「分层」架构对性能的影响微乎其微

论文提出,HRM 架构是实现分层推理的关键——结合了慢节奏的指导(H-level)和快节奏的思考(L-level)。

为了理解该架构的影响,我们进行了 2 个实验:

  • 改变分层组件中的迭代次数。

  • 将 HRM 模型替换为类似规模的 Transformer。

为便于比较,该 Transformer 拥有与 HRM 模型相同的参数数量(约 2700 万)。在所有实验中,我们保持 HRM 流程的其他所有组件不变。

将 HRM 与常规 Transformer 进行比较,得到了两个有趣的结果,见图 3。首先,一个常规的 Transformer 在没有任何超参数优化的情况下,性能与 HRM 模型相差约 5 个百分点。当只有一个外循环时,差距最小,此时两个模型的性能不相上下。

image.png

图 3:HRM 模型和相同尺寸的 Transformer 在不同外循环步数下的 pass@2 性能。Transformer 在没有任何超参数优化的情况下,性能与 HRM 相差几个百分点。

当外循环次数多于 1 次时,HRM 表现更好,但随着外循环次数的增加,差距会缩小。请注意,尽管参数数量匹配,HRM 使用了更多的计算资源,这可能部分解释了性能差异。增加计算资源带来的好处可能会随着外循环次数的增多而出现收益递减,这与我们的结果相符。

我们进一步改变了 H-level 和 L-level 的步数来分析其影响。我们发现,增加或减少迭代次数(基线为 L = 2, H = 2)都会导致性能下降。

这些结果表明,在 ARC-AGI 上的性能并非 HRM 架构本身带来的。虽然它确实提供了一点好处,但在 HRM 训练流程中换用一个基线 Transformer 也能达到相当的性能。

发现 2:论文中提及较少的「外循环」优化过程  带来了显著的性能提升

除了分层架构,HRM 论文还提出在模型外部使用一个外循环(「循环连接」)。这将模型的输出反馈给自己,允许模型迭代地优化其预测。

此外,它使用「自适应计算时间」(ACT)来控制在特定任务上花费的迭代次数。ACT 决定是停止预测还是继续优化。

HRM 方法的这一部分类似于 Universal Transformer,后者既有围绕 Transformer 模型的循环优化循环,也有一个 ACT 的版本。

在我们的第二组实验中,我们想了解外层优化循环以及 ACT 对整体性能的影响。我们改变了训练期间的最大外循环次数,并在推理时使用最大循环次数(遵循 HRM 的实现)。

image.png

图 4:在不同数量的训练和推理优化循环下的 pass@2 性能。通过迭代优化数据会产生强大的影响,正如从 1 次循环(无优化)到 2 次循环(1 次优化)的性能飞跃所示。

如图 4 所示,外循环的次数对模型性能有显著影响——从无优化(1 次循环)到仅 1 次优化,性能跃升了 13 个百分点。从 1 次优化循环增加到 8 次,公开评估集上的性能翻了一番。

一个次要发现是,在训练期间使用 ACT 确实能减少每个任务的实际优化步数。然而,虽然使用 ACT 能提高性能,但与固定的 16 次循环运行相比,差异仅在几个百分点之内。

结果表明,优化外循环是 HRM 性能的关键驱动力

为了理解训练时优化与推理时优化的影响,我们进一步独立地改变了推理优化循环的次数。

image.png

图 5:在不同数量的推理优化循环下的 pass@2 性能。蓝色条表示使用相同循环次数进行训练和推理的模型。橙色条表示使用 16 个优化循环训练,但在推理时使用不同循环次数的模型。例如,1-Loop 处的蓝色条表示用一个优化步骤训练并用一个优化步骤推理的模型。橙色条表示用 16 个优化步骤训练但仅用一个优化步骤推理的模型。

为此,我们比较了两种设置。第一种,我们在训练和推理中使用相同数量的优化循环。第二种,我们用最多 16 个优化循环步骤训练一个模型,并分别用 1、4、8 和 16 个优化步骤来评估它。

比较这两类模型显示出实质性差异,尤其是在低推理优化步数(1 和 4)时,见图 5。用更多的优化步骤进行训练,可以将单次优化循环预测的性能提高超过 15 个百分点,尽管一次循环意味着没有任何优化的单次前向传播。在推理时增加更多的优化循环,影响则没有那么大。这表明,带优化的训练比在推理时使用优化更重要。

发现 3:跨任务迁移学习的影响有限

在原始论文中,HRM 在 960 个任务的演示对的增强版本上进行训练:

  • 来自 ARC-AGI-1 训练集的 400 个任务。

  • 来自密切相关的 ConceptARC 基准的 160 个任务。

  • 来自 ARC-AGI-1 评估集的 400 个任务,这些任务也是评估时要解决的目标。

需要注意的是,这并不意味着数据泄露,因为模型在训练时从未看到评估任务的测试对——而这正是模型被评估的内容。

我们想了解跨任务迁移学习与推断并记忆评估时特定任务的解决方案相比,其影响如何。我们进行了以下实验:我们只在 400 个评估任务上进行训练——去掉了来自训练集的 400 个任务和来自 ConceptARC 数据集的 160 个任务。

在这种设置下,模型达到了 31% 的 pass@2 准确率,与最初的 41% 相比仅有小幅下降。这表明,绝大部分性能是由在评估时见过的任务上进行训练所驱动的。这意味着 HRM 的做法本质上是一种零预训练的测试时训练方法,类似于 Liao 和 Gu 的「无预训练的 ARC-AGI」。这相当于将模型用作一种程序合成基底——在任务的演示对上使用梯度下降,将执行该任务的程序编码到模型的权重中。

值得注意的是,在我们的实验中,仍然存在一定程度的跨任务迁移学习——在评估集的不同任务之间。我们实验的一个更强的版本是,在每个评估任务上单独运行 HRM 流程,这样模型在训练时只会看到它将被评估的那一个任务的演示对的增强版本。这将使 HRM 的设置与 Liao 和 Gu 的设置完全一致。我们没有时间运行这个实验,但我们推测结果将与 Liao 和 Gu 的(21% pass@2)非常接近。

发现 4:预训练的任务增强至关重要

我们研究的 HRM 流程中另一个重要组成部分是任务增强。

数据增强是深度学习中一种常用方法,用于增加数据集中的样本数量并提高模型的泛化能力。这意味着对任务应用旋转、翻转或颜色交换,从而在不改变任务基本概念的情况下生成新数据。

HRM 对任务的所有增强版本进行预测,然后将增强后的预测还原(或「去增强」),使其恢复到原始任务格式。然后,模型对这些预测进行多数投票以选出最终候选。

我们测试了对基线 HRM 的以下修改:

  • 编译数据集时最大增强的数量。

  • 用于多数投票的最大预测数量。

因为 HRM 只能处理训练期间遇到过的增强类型,所以我们在推理时对第 2 点的改变仅限于减少增强数量,而不能增加。

图 7 中的结果显示了两个趋势。首先,使用数据增强确实能显著提高性能。然而,仅使用 300 次增强,而不是论文中使用的 1000 次,就已接近最大性能。仅使用 30 次增强(论文中总数的 3%)的性能与最大性能相差不到 4%。

其次,在训练期间使用数据增强似乎比为多数投票获得更大的池子更重要。用更多增强训练的模型,在用较小池子进行推理时,性能下降得要少得多。

其他技术性学习

深入研究 HRM 的内部机制还带来了一些其他有趣的发现。

首先也是最重要的一点,HRM 将 ARC-AGI 任务分解为单个的输入-输出对,他们称之为谜题(puzzles)。每个谜题会获得一个 puzzle_id,它由任务哈希值和应用于此特定谜题的增强代码组成。

在训练和推理时,模型只接收输入和 puzzle_id——没有包含任务其他输入-输出示例的少样本上下文。HRM 模型必须学会将一个 puzzle_id 与一个特定的转换关联起来,以便它能从输入预测输出。

为此,它将 puzzle_id 输入一个大的嵌入层。这个嵌入层是关键——没有它,模型就不知道如何处理输入。这带来了一个主要限制:该模型只能应用于它在训练时见过的 puzzle_id

在与作者就此话题的交流中,他们解释说,为少样本上下文更改谜题嵌入是一个复杂的工程挑战。在早期版本中,他们做过比较,发现在更大的类 ARC 数据集上,少样本上下文效果很好,但在样本受限的 ARC 上,谜题嵌入的表现明显更好。我们没有复现这些实验,但这为未来的工作指明了有趣的方向。

出于同样的原因,在这个版本的 HRM 中,推理数据必须是训练数据集的一部分。例如,独立地改变增强数量并不是一件直接的事情。

最后,虽然优化循环对性能有明显影响,但 HRM 是纯粹转导性的。虽然可以展开优化步骤,但底层的程序仍然是隐式的。我们的假设是,这种方法不具备泛化能力。

待解决的问题与未来工作

我们对 HRM 的实验为我们揭示了其在 ARC-AGI 上表现出色的原因,但其他问题依然存在。除了上面提到的,我们还邀请社区探索以下更多问题:

  • puzzle_id 嵌入对模型性能有多大影响?与将任务中的其余示例作为上下文提供相比如何?

  • HRM 在其训练数据之外的泛化能力如何?是否有任何方法可以在新数据上微调 HRM?

  • 在推理时,学习到的停止机制有何影响?其好处仅限于节省计算资源,还是也能提高性能?

  • 优化的思想是否能推广到其他方法,例如合成显式程序的归纳方法?

  • 通过在每个评估任务上单独进行训练和评估,可以达到什么样的性能?(消除所有跨任务迁移学习。)

  • 哪些特定的增强类型能带来更高的性能?旋转?颜色交换?为什么?

结语

来自 ARC Prize 的分析非常详尽,不少人感叹说,这才是真正的「同行评审」。

88028134-0e5b-4a15-8b37-19fa3fd4ce83.png

还有人说,这个分析本身和论文一样重要。如果大家以后能够更多地用这种方式去分析一些备受关注的研究,相信社区可以更加高效地获取一些新知识。

2c6d958d-c0af-4a16-bf6a-4d37e08368fa.png

]]>

联系我们