动态列表

  • 比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次!
  • 苹果AI秘密武器曝光!代号「AKI」团队浮出水面,乔布斯遗愿Siri终要翻身?
  • AI浪潮重塑一切,图形学路在何方?北大陈宝权入主SIGGRAPH执委会,肩负新使命
  • OpenAI用GPT-4b攻克诺奖难题!人体细胞「返老还童」,逆转效率飙升50倍
  • 「只参与,不参赛」奖牌数却仅次于宇树,这个幕后玩家如何做到的?
  • OpenAI重大发现:GPT-4b micro改造诺奖研究,山中因子重编程效率提高50倍
  • 第一名方案公开,代码智能体安全竞赛,普渡大学拿下90%攻击成功率
  • Coinbase强制全员上手AI工具,拒绝者直接开除
  • Chain-of-Agents: OPPO推出通用智能体模型新范式,多榜单SOTA,模型代码数据全开源
  • 马斯克沉迷的「刷刷刷」游戏,要来中国了
  • Anthropic 寻求 100 亿美元新融资;《恋与深空》获科隆展最佳移动游戏奖;脑瘫司机靠特斯拉 FSD 开车养家
  • 全球95%企业AI惨败?MIT报告引硅谷恐慌!90%员工偷用ChatGPT续命
  • 全球第一!西湖大学成功登顶Science,卷赢同行背后黑科技揭秘
  • 马斯克Grok-4卖货创收碾压GPT-5!AI卖货排行榜曝光,AGI的尽头是卖薯片?
  • 刚刚,大模型棋王诞生!40轮血战,OpenAI o3豪夺第一,人类大师地位不保?
  • 可灵AI单季营收超2.5亿,快手财报里的「AI含金量」有多高?
  • NASA、IBM打造日地物理学首个开放式 AI 基础模型,用九年观测训练提升约16%耀斑预测准确率
  • 1 个月,2 场胜仗,李斌从「斌子」变成「斌神」
  • 球首款AI原生游戏引擎再进化:GTA6再不来,我们就AI一个
  • KDD 2025 Best Paper Runner-Up | EI-BERT:超紧凑语言模型压缩框架
  • 即梦推出“智能多帧”功能 突破AI视频长镜头创作瓶颈
  • 从实验室到餐桌:Robert Langer团队杨昕博士用新材料破解全球「隐性饥饿」
  • 别再分开训!SFT+RL融合范式全解析:统一视角下的六大方法
  • 北京内推 | 快手商业化算法部内循环电商模型组招聘推荐大语言模型算法实习生
  • 考场高分≠临床可靠!全球首个医疗动态红队测试框架,破解医疗AI落地危机
  • ICCV 2025 | 换脸迈入“电影级”!小红书发布DynamicFace,统一图像视频换脸基线
  • 那些让你「活人微死」的工作日,终于有救了
  • Cursor为Blackwell从零构建MXFP8内核,MoE层提速3.5倍,端到端训练提速1.5倍
  • 谷歌Gemini一次提示能耗≈看9秒电视,专家:别太信,有误导性
  • 从繁杂技巧到极简方案:ROLL团队带来RL4LLM新实践
  • 究竟会花落谁家?DeepSeek最新大模型瞄准了下一代国产AI芯片
  • ICCV 2025 | 打造通用工具智能体的基石:北大提出ToolVQA数据集,引领多模态多步推理VQA新范式
  • 对话小米 AI 眼镜负责人:20 天卖光库存,但属于产品的「长跑」才刚开始
  • DeepSeek V3.1 发布:更强的 Agent ,更贵的 API;多家网约车平台集体降抽成;影石发布 4K 画质「口袋相机」|极客早知道
  • 谷歌手机十年最狠升级,全家桶AI宣战苹果!一句话P图,100倍变焦
  • GPT-5点赞!八大顶尖机构发布「自进化智能体」全面综述
  • 打工半年后,Atlas觉醒!「大行为模型」零代码上新技能,AI工业革命来了?
  • DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
  • 刚刚,好莱坞特效师展示AI生成的中文科幻大片,成本只有330元
  • 摆脱遥控器,波士顿动力人形机器人,开始「长脑子」干活了
  • 微软AI CEO警告:我们需要警惕「看似有意识的AI」
  • ICCV 2025 | ECD:高质量合成图表数据集,提升开源MLLM图表理解能力
  • 汽车业务还没盈利,小米却已找到「第三曲线」
  • 通义APP上线官方知识库,首批覆盖教育、法律、金融等五大领域
  • AI Scientist生成的论文被指「剽窃」,回应称「未引用相关研究」,AI自动化科研还靠谱吗?
  • 训练减半反超GRPO!Shuffle-R1引入动态洗牌术,突破多模态RL效率瓶颈
  • 提分不提参!遥感图像四大SOTA trick:多模态融合、统一框架、轻量化与新范式
  • 博士申请 | 香港理工大学Ajay Kumar教授(IEEE Fellow)招收计算机视觉全奖博士生
  • 击败Meta登榜首:推理增强的文档排序模型ReasonRank来了
  • 千寻位置护航无人机表演,开启品牌多城联动新篇章
  • 刚刚,字节开源Seed-OSS-36B模型,512k上下文
  • 上下文记忆力媲美Genie3,且问世更早:港大和可灵提出场景一致的交互式视频世界模型
  • OpenAI 单月营收已经破 10 亿美元;马斯克的 Grok,超 37 万条用户聊天记录「裸奔」;谷歌发布 AI 手机
  • 成为「流量黑马」的老品牌,如何借拼多多秒懂 00 后?
  • AI 的终点不是对话框,这家公司想让真实世界成为 AI 的提示词
  • 网易有道发布子曰教育大模型多款AI新品,定义教育AI应用能力L1-L5分级
  • 二十余名英国青年科学家在沪参与好望角科学沙龙活动
  • 为长视频生成减负!浙大与华为提出Compact Attention,挖掘结构化稀疏加速2.5倍
  • TPAMI 2025 | 骨架动作理解大一统:东南大学等提出USDRL,一个面向密集表征学习的基础模型
  • 报名开启|中关村国际青年论坛:诚邀全球青年学者共探AI前沿
  • Sora没做到的,LongVie框架给解决了,超长视频生成SOTA
  • 「价格战」打了半年,吉利如何做到核心利润暴增102%?
  • 小鹏Q2财报「炸裂」:营收暴涨125%,毛利率反超特斯拉
  • Nature子刊 | 上智院统一框架RXNGraphormer,实现化学反应多任务精准预测,自发掌握分类规律
  • 首个面向肽分子设计的大模型平台:直接「读序列」出结合子,无需结构输入即可生成
  • 北京内推 | 清华×生数科技联合招聘音视频生成方向研究型实习生
  • 类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化
  • ICCV 2025满分论文!空间理解与主动探索大统一,MTU3D重塑AI具身导航范式
  • 90.5%准确率登顶8B模型榜首,快手Klear-Reasoner破解RL训练裁剪难题
  • 智谱推出AutoGLM 2.0:手机 Agent 的「Manus 时刻」?
  • 论坛报名已启动,速来锁定席位!解码具身智能的落地挑战与产业爆点
  • DiT在数学和形式上是错的?谢赛宁回应:不要在脑子里做科学
  • dLLM的「Free Lunch」!浙大&蚂蚁利用中间结果显著提升扩散语言模型
  • DeepSeek开源新基础模型,但不是V4,而是V3.1-Base
  • Meta超级智能实验室重组为四个部门,某些高管将离开
  • ICCV 2025 | 跨越视觉与语言边界,打开人机交互感知的新篇章:北大团队提出INP-CC模型重塑开放词汇HOI检测
  • 黑神话系列第二作,《黑神话:钟馗》先导宣传片公布;小米卢伟冰:2027 年进军欧洲汽车市场;宇树预告新机器人
  • GPT-5暴写「屎山代码」!14个Prompt,看穿GPT-1到GPT-5七年智商进化史
  • 微软最新揭秘:「话痨实习生」AI助手,到底能帮人类做什么?
  • 陶哲轩「断粮」后,25年首次绝望怒吼:美国科学命脉被砍断!
  • 16岁天才少年炒掉马斯克,空降华尔街巨头!9岁上大学,14岁进SpaceX
  • 中科慧远发布CASIVIBOT,以九年积累开启AOI与机器人协同的品质检测新时代
  • 英伟达ViPE:任意视频一键转为3D几何数据,开源引擎与亿级帧数据集重磅发布!
  • CVPR 2025 | DeCLIP:解耦CLIP注意力,哈工大(深圳)、港大提出通用开放词汇密集感知新框架
  • 强化学习之父Richard Sutton最新演讲揭示OaK架构:通向超级智能的八步愿景
  • ICCV 2025 | RobustSplat: 解耦致密化与动态的抗瞬态3DGS三维重建
  • 医疗AI安全革命:全球首个医疗动态红队测试框架DAS,破解临床落地信任危机
  • 谷歌在上海办了场 AI 嘉年华,开发者们却说像逛「AI 基地」
  • 7年了,OpenAI官方给出五代GPT对比,网友却怀念起「狂野」初代
  • X-SAM:从「分割一切」到「任意分割」:统一图像分割多模态大模型,在20+个图像分割数据集上均达SoTA
  • FlashCommunication V2登场!突破「任意比特」通信瓶颈,加速大模型分布式训练与部署
  • CVPR 2025 | 打破壁垒!多模态统一学习新范式来了,数据、模型、代码全开源
  • 重温经典!十年前的视觉MoE雏形:HD-CNN用分层路由预演大模型逻辑
  • 博后招募 | 清华大学信息国家研究中心招收大模型/多模态/CV等方向博后/实习生
  • 开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
  • 图生视频新玩法刷爆外网:图上画两笔就能动起来,终于告别文本提示
  • 妙笔生维:线稿驱动的三维场景视频自由编辑
  • 一句话,性能暴涨49%!马里兰MIT等力作:Prompt才是大模型终极武器
  • Z世代生存、学习与未来宣言!伯克利学霸预言课堂,用AI设计人生
  • AI来了!记者、UP主、写手,谁能逃过这场「灭绝浪潮」?
  • Hinton预言成真!AI接管美国一半白领,牛津哈佛扎堆转行做技工
  • 为什么「游戏」是 AI 陪伴落地的好场景?
  • 新加坡 AI 办公系统 Agnes:200 个 Agent 并行研究,让 AI 主动「找茬」打磨设计
  • 机器人也会「摸鱼」了?宇树G1赛后葛优瘫刷美女视频,网友:比人还懂享受生活
  • LLM为什么能看懂图?秘密不在Projector,残差结构才是跨模态理解的关键
  • 从GPT-2到gpt-oss,深度详解OpenAI开放模型的进化之路
  • NextStep-1:一次在图像生成上自回归范式的探索
  • KDD 2025 | UoMo来了,首个无线网络流量预测模型,一个框架搞定三类任务
  • ICCV 2025 | MobileViCLIP:快55倍!南大等提出首个高效“视频-文本模型,让多模态AI在手机可运行!
  • 突破长视频生成瓶颈:南大 × TeleAI 联合推出全新 AI 生成范式 MMPL,让创意“一镜到底”
  • 开源扩散大模型首次跑赢自回归!上交大联手UCSD推出D2F,吞吐量达LLaMA3的2.5倍
  • 一张图,开启四维时空:4DNeX让动态世界 「活」起来
  • AI发现新物理定律:纠正等离子体理论多年错误假设
  • 多模态大模型在化学与材料学的「体检表」——哪些能力靠谱,哪些还差很远?
  • Altman:希望 AGI 能提高生育率;与辉同行否认董宇辉年收入二三十亿元;今年国内智能眼镜市场同比增长121.1%
  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • 给DiT装上“迷你”控制舵:NanoControl实现高效精准控制,参数量仅增0.024%
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」

ICLR 2025 | 大模型为何会“举一反三”?揭开「上下文学习」的小样本学习密码

让你更懂AI的 2025-08-21 13:37 北京

小样本学习不再玄学

近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。

上下文学习能力(In-Context Learning, ICL)是 LLM 最显著且重要的能力之一,它允许 LLM 在给定包含输入输出示例的提示(prompt)后,直接生成新输入的输出,这一过程仅通过前向传播而无需调整模型权重。

这种能力使得 LLM 能够基于上下文中的示例快速理解并适应新任务,展现出强大的小样本学习和泛化能力。

理解 LLM 是如何实现 ICL 的,对于提高模型性能与效率、提升模型可解释性与 AI 安全、推广大模型应用与改进小样本学习算法具有重要意义,也是近来机器学习研究热点之一。有以下关键问题需要回答:

  • LLM 能够学到哪些学习算法,例如梯度下降、比较近邻等?

  • 在具体问题的 ICL 过程中在执行哪一种学习算法?

  • 如何进一步提升 LLM 的 ICL 能力?

ICL 通常建模为将多个已知样例与预测目标输入一起,拼接成序列输入 LLM 中的 transformer 模型,输出对目标的预测(图 1 左)。

现有工作已证明 ICL 在不同模型和数据分布条件下,能够分别实现如线性回归和梯度下降等具体的学习算法,从已知样例中学习到任务对应输入输出映射,并作用于目标输入上产生预测输出。

而这种学习算法是 transformer 模型通过预训练过程得到的,现实中 LLM 的预训练涉及海量的文本数据,含有复杂的语义信息,难以用单一的数学分布建模。现有工作对 ICL 实现小样本学习算法的解释难以泛化到真实世界场景或实际 LLM。

为了对 ICL 的小样本学习能力有更直观的认识,在近期发表于 ICLR 2025 的工作 “Why In-Context Learning Models are Good Few-Shot Learners?” 中我们对 ICL 模型作为元学习器的本质进行了建模与研究,以对上面三个问题进行了回答。

论文标题:

Why In-Context Learning Models are Good Few-Shot Learners?

论文链接:

https://openreview.net/pdf?id=iLUcsecZJp

代码链接:

https://github.com/ovo67/Uni_ICL

图片

将LLM建模为元学习器覆盖学习算法空间

ICL 模型可以学到所有传统元学习器学到的算法。元学习(Meta-Learning)是一种 “学习如何学习” 的方法,可通过设计模型使其能够快速适应新任务应用于小样本学习。

它通过在多个相关任务上进行训练,学习到一种通用的学习策略或算法,从而在面对新任务时能够快速调整自身参数或结构,实现快速优化和泛化。

借助元学习领域成熟的理论基础与方法经验,理论证明了作为实现学习算法的模型,基于 transformer 的 ICL 模型与传统的元学习器相比具有更强的表达能力(图 1 右)。

图1. 大语言模型的上下文学习示例,以及上下文学习模型在学习算法空间中与传统元学习模型的关系。

图片

ICL模型学到并执行在预训练分布上最优的算法

ICL 算法的学习是通过对预训练数据分布的拟合。在预训练充足的情况下,ICL 模型能够学习到在预训练任务集上最优(在与训练数据分布上最小化损失)的学习算法,从而在仅有少量样本的情况下实现快速适应。

我们构建三类已知最优算法(Pair-wise metric-based/Class-prototype metric-based/Amortization-based 三种任务的最优算法分别可由元学习器 MatchNet/ProtoNet/CNPs 学习得到,图 3a)的任务。

首先分别在单一种类任务集上训练,测试表明 ICL 性能与该预训练数据下能学到的最优算法表现相当(图 2 上)。

然后再混合三种任务集上训练,三种传统元学习器的性能都有所下降,而 ICL 的性能依然与单一种类任务训练得到的最优性能一致(图 2 下)。

以上结果说明 ICL 模型能够学习到预训练任务集上最优的学习算法,并且与传统的元学习器相比 ICL 模型具有更强的表达能力,因为它们不仅能够学习到已知的最优学习算法,还能够根据数据的分布特性表达出传统视野之外的学习算法,这使得 ICL 模型在处理多样化任务时具有显著优势。

图2.(上)分别在三种任务集上训练并对应测试的测试表现;(下)在混合任务集上训练并分别测试三种任务的性能表现。

我们还对 ICL 模型学习到的算法的泛化性进行了实验研究。展示出了其作为深度神经网络受数据分布影响的特性:其预训练过程本质上是在拟合以特定结构输入的训练任务集的数据分布,而无法保证学习到显式的基于规则的学习算法。

这一发现纠正了现有工作将 ICL 解释为算法选择(Algorithm Selection)的过程。这将导致 ICL 模型在预训练数据受限或测试数据分布有偏移时性能表现不及预期(图 3)。

图3. ICL 与 “算法选择” 行为的比较(a)两种模型在三类已知最优算法的任务上训练,在未知最优算法任务上测试;(b)对于测试任务 ICL 可以处理而 “算法选择” 无法处理;(b)ICL 对测试数据分布敏感而 “算法选择” 不敏感。

图片

将传统深度网络的相关方法迁移到元学习层面以提升ICL性能

基于上述对 ICL 模型作为学习算法强表达、难泛化的认识,可以将 ICL 模型对特性与传统深度神经网络的特性进行类比。我们提出通过 “样本 - 任务” 的概念映射将传统深度学习技巧迁移到元学习层面以优化 ICL 模型。

例如实现了基于任务难度的元课程学习提升 ICL 模型预训练过程的收敛速度:图 4 展示了对于线性回归任务以递增非零维度数量作为课程的效果,元 - 课程学习能有效加速 ICL 模型的收敛,但不一定提升其最终性能。

图4. 元 - 课程学习(左)训练过程 loss 变化;(中)200000 episodes 时的测试结果;(右)500000 episodes 时的测试结果。

又例如实现了基于领域划分的元 - 元学习,即将训练数据划分为多个领域,每个领域含有一个训练任务集和验证任务集,即可将以单个任务为输入的 ICL 模型作为待适应网络,构建元 - 元学习器在每个领域上利用训练任务集进行适应。

实验效果如图 5 所示,提升了 ICL 模型的有限垂域数据高效适应能力。

图5. 采用元 - 元学习的 ICL 模型分别在给定每领域 64/256/1024 个任务时的适应表现。

图片

总结

本文通过将 ICL 模型建模为元学习器,证明了 ICL 模型具有超过已有元学习器的表达学习算法的能力。

ICL 执行在预训练数据分布上最优的算法,而不一定具有可泛化的规则;可以将传统深度网络有关技术迁移到元学习层面用以提升 ICL,如元 - 课程学习加速预训练收敛,元 - 元学习提升少数据领域微调快速适应能力。

关于作者:

吴世光,清华大学电子工程系博士研究生,本科毕业于清华大学电子工程系。当前主要研究方向包括元学习与大语言模型。

王雅晴,现任北京雁栖湖应用数学研究院(BIMSA)副研究员,长期从事机器学习、人工智能和科学智能的研究,致力于构建高效、低成本的智能算法,以精准匹配海量数据的科学解释并解决现实问题。她在 NeurIPS、ICML、ICLR、KDD、WWW、SIGIR、TPAMI、JMLR、TIP 等国际顶级会议和期刊上发表 27 篇论文,总被引用 4500 次。2024 年,她入选全球前 2% 顶尖科学家榜单。

姚权铭,现任清华大学电子工程系助理教授,研究方向为机器学习和深度学习。共发表文章 100 + 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI 和顶级会议 ICML、NeurIPS、ICLR 等,累计引用超 1.2 万余次。担任 ICML、NeurIPS、ICLR 等会议领域主席,NN、TMLR、MLJ 等期刊(资深)编委。获首届蚂蚁 In Tech 科技奖、国际人工智能学会(AAAI)学术新星、国际神经网络学会(INNS)青年研究员奖、吴文俊人工智能学会优秀青年奖,同时入选全球 Top 50 华人 AI 青年学者榜和福布斯 30under30 精英榜。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们