动态列表

  • WAIC唯一指定C位,AI「国家队」又赢麻了!秒懂Hinton伦敦腔,现场杀疯老外狂点赞
  • 首部法律LLM全景综述发布!双重视角分类法、技术进展与伦理治理
  • 小扎一夜反水,背刺开源!亲手葬送「Llama神话」,股价大涨12%
  • GPT-5发布倒计时?全网泄露来了:微软Copilot憋大招,GPT-5上线最后冲刺!
  • 17.98 万的乐道 L90,有多少蔚来的诚意,就有多少李斌的「求生欲」
  • ACL'25最佳论文独家解读:大模型有「抗改造」基因,现有后训练范式失灵预警
  • 当提示词优化器学会进化,竟能胜过强化学习
  • ACL 2025主会论文 | TRIDENT:基于三维多样化红队数据合成的LLM安全增强方法
  • 谷歌发布AlphaEarth基础模型:构建「地球版ChatGPT」,融合多源数据,实现10米级地球观测
  • 微软花重金做的Copilot,居然被WPS一个按钮给秒了?
  • 定义科学智能2.0:在WAIC,复旦与上智院的答案是开放协作、科学家为中心,以及一个「合作伙伴」
  • OpenAI提出的CLIP,被Meta联合谢赛宁、刘壮,扩展到全球300+语言
  • VLA-OS:NUS邵林团队探究机器人VLA做任务推理的秘密
  • XREAL One Pro 体验:AR 老炮的自我革命
  • WAIC UP! 之夜:一场关于AI与人类未来的星空思辨
  • AI 智能体,让每个人可以像科学家一样工作和思考
  • 刚刚,扎克伯格公开信:Meta不会开源全部模型
  • 没敲过代码的我,半小时「聊」出一个能用能分享的「小程序」
  • 把指纹焊死在频率上:抗微调神经网络指纹的硬核方案来了
  • 32.18万起!理想i8正面「硬刚」特斯拉Model X
  • 智能驾驶最大的障碍,不是懂车帝
  • 刚刚,DeepSeek梁文锋NSA论文、北大杨耀东团队摘得ACL 2025最佳论文
  • 小米青年公寓正式启用,1999 元/月;Meta AI 数据中心投入 720 亿美元;NBA 引入「AI 篮球」
  • AI百人榜刷屏,小扎照单全收?辛顿Ilya师徒霸榜,第二名竟是本科生
  • 炮轰黄仁勋,决裂奥特曼!1700亿美元估值背后,硅谷最不好惹的AI狂人
  • 别只盯着李飞飞!AI的「3D数据底座」已被这家中国公司悄悄建好
  • 无需准确传感信号!轻松搞定「多段软体机械臂」复杂位姿与形状控制
  • Nature 子刊 | DeepSeek落户超750家医院,清华团队剖析AI医疗监管隐忧
  • P图手残党有救了,豆包·图像编辑模型3.0上线,一个对话框搞定「增删改替」
  • 开出10亿美元天价,小扎挖人Mira创业公司惨遭拒:俺们不差钱
  • 当智能成为主要生产资料,硅基经济学引爆「AI+金融」
  • SPIRAL:零和游戏自对弈成为语言模型推理训练的「免费午餐」
  • 刚刚,OpenAI推出学习模式,AI教师真来了,系统提示词已泄露
  • 凌晨,Qwen又更新了,3090就能跑,3B激活媲美GPT-4o
  • AI安全上,开源仍胜闭源,Meta、UCB防御LLM提示词注入攻击
  • 字节辟谣「豆包汽车」:无造车计划;英伟达市值突破4.3 万亿美元;传特斯拉将推「低价赛博皮卡」
  • 科学能力太强,这个多模态推理「六边形战士」被严重低估!Intern-S1开源登顶
  • 全球首次,「AI记忆」开源落地!MIRIX同步上线APP
  • GPT-5基准测试泄露,被曝两天后发布?打Minecraft震撼开挂网友直呼封神
  • 马斯克偷偷憋了个大招!Grok秒出《阿凡达》画质,好莱坞瑟瑟发抖?
  • 理想i8正式发布:首款纯电SUV,售价32.18万元起
  • WAIC 2025大黑马,一个「谢耳朵AI」如何用分子式超越Grok-4
  • 通义实验室大火的 WebAgent 续作:全开源模型方案超过GPT4.1 , 收获开源SOTA
  • 这家国内公司,在给具身智能技术栈做「通解」
  • ACL首届博士论文奖公布,华人学者李曼玲获荣誉提名
  • 全球首个全链式空间天气AI预报模型“风宇”!国家卫星气象中心牵头,联合南昌大学、华为共同研发
  • LeCun出手,造出视频世界模型,挑战英伟达COSMOS
  • 联合十余家国产生态,商汤大装置发布“算力Mall”,打造算力超级市场
  • 用说的就能做 App,这家公司想做 AI 时代的 ins
  • 从数字人到「有温度的」机器人,京东把 AI 深度应用的路线图「摸透」了
  • 开启RL Scaling新纪元,siiRL开源:完全分布式强化学习框架,支持超千卡规模高效训练
  • 共青年之智,铸AGI未来|2025 WAIC云帆奖得主名单揭晓
  • 阿里再开源,全球首个MoE视频生成模型登场,电影级美学效果一触即达
  • WAIC2025,斑马智行元神AI获国际测评机构全项第一
  • 蛋白质基座的GPT时代来了?AMix用Test-time Scaling让蛋白质设计迈向通用智能
  • Allegro-FM:剑指分子动力学基础模型,零样本预测89种元素及复杂反应
  • AI 上新|不会用 PS 的我,却敢去小红书上接「设计单」了
  • GMI Cloud 于 WAIC 2025 展现全栈 AI 基建实力,破解出海成本与效率难题
  • WAIC 2025: 斑马智行元神AI大模型,获全球机构测评第一
  • 国内首例!由钉钉AI平台训练的豆蔻大模型通过妇产科主任医师考试
  • 闭幕式 | 2025世界人工智能大会暨人工智能全球治理高级别会议成功举办
  • 智谱发布新一代基座模型GLM-4.5:开源、高效、低价,专为智能体而生
  • AI Agents的“超级大脑”来了 阿里云正式发布无影Agentbay
  • WAIC 2025前探:AI硬件如何改变我们的日常生活
  • 这届WAIC,无问芯穹发布了三个「盒子」
  • 「幻觉」竟是Karpathy十年前命名的?这个AI圈起名大师带火了多少概念?
  • EvaLearn:AI下半场的全新评测范式!
  • 蚂蚁数科发布金融推理大模型 助力金融机构加速落地智能体应用
  • 2025 WAIC容联云AI AGENT论坛启幕,以技术引擎驱动产业智能跃迁
  • 商汤大装置亮相WAIC 2025,多项标志性成果打造AI基础设施新范式
  • 广大、清华等开发EdgeAIGC,让边缘缓存命中率飙升41%,AIGC延迟与成本双降
  • WAIC直击|快手可灵AI引领「生成式AI应用元年」,累计生成超2亿视频
  • 硬核「吵」了30分钟:这场大模型圆桌,把AI行业的分歧说透了
  • ICCV 2025|UV-CoT:无监督视觉推理新突破,偏好优化重塑图像级思维链
  • 扣子开源全家桶,Apache 2.0加持,AI Agent又一次卷到起飞
  • 多模态大模型,真的「懂」世界吗?——揭秘 MLLM 的核心知识缺陷
  • 具身智能,腾讯「低调入局」
  • 首次结合RL与SFT各自优势,动态引导模型实现推理⾼效训练
  • 特斯拉廉价 Model Y 减配内饰曝光;Firefox 终止中国账户运营;宇树王兴兴:经常偷懒,用 AI 写代码|极客早知道
  • CEO卷走24亿,二号员工血亏99%!30亿Windsurf梦碎内幕曝光
  • 90后养老就靠它?清华系机器人WAIC炫技,叠衣取货秀翻全场
  • 谁是Adam?NeurIPS 2025审稿爆年度最大笑话!Hinton也曾被拒稿
  • Nature子刊 | 上交突破极限,端到端无人机高速避障,可微分物理实现
  • 菲尔兹奖得主深度参与,WAIC全方位探讨「AI for Math」
  • AI遇上华夏上古,复旦、上智院、上海创智学院联合发布早期中华文明多模态大模型
  • AI Agent 第一波浪潮过后,OPPO 是怎么闷声做出第一个爆款的?
  • Vibe Coding 开赛,阿里靠新模型赢麻了?
  • 钛动科技发布首个全球营销 AI Agent,改写中国品牌出海「新叙事」
  • 你的AI管家可能正在「拆家」?最新研究揭秘家⽤具⾝智能体的安全漏洞
  • 把《坤舆万国全图》装进口袋,扫描全能王黑科技亮相2025WAIC
  • ACL 2025|驱动LLM强大的过程级奖励模型(PRMs)正遭遇「信任危机」?
  • 世界人工智能大会:分子之心发布10大解决方案 AI蛋白设计迈入“可编程”时代
  • 离线智能,什么时候迎来 DeepSeek 时刻?
  • 阿里模型三连发闪耀WAIC,中国开源模型“周级迭代”引领AI新变革
  • Anthropic 最新估值超 1500 亿美元;首款国产消费级 6nm GPU 亮相;100% 预防艾滋神药获准上市
  • 国产AI首次「长出」原生记忆,非Transformer架构成新王!机器狗当场引爆WAIC
  • Meta百亿抢人内幕!清华学霸转行AGI拿千万年薪,教授校友看呆了
  • 77岁Hinton首度访华,周伯文高能交锋!17分钟尖峰对话震撼全场
  • 刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
  • WAIC机器人探展:我被全场最靓的崽「Moz1」种草了
  • 数学之问 | 当 AI 与数学在上海相遇:WAIC 2025 背后的智慧革命
  • 尖峰对话17分钟全记录:Hinton与周伯文的思想碰撞
  • 直击WAIC:萝卜快跑入选「国家队」,AI数字人技术升级,百度全栈自研杀疯了
  • ICML 2025 | CoTo:让LoRA训练「渐入佳境」,模型融合、剪枝样样精通
  • 星河启智:科学智能2.0时代,开启「科学家即C位」的自主科学新范式
  • 夸克AI眼镜首次亮相,阿里构建后手机时代随身AI助手
  • 千寻位置与国地中心携手发布首款“时空算力背包”,助力机器人从室内走向室外
  • 在WAIC现场,全球首个拥有「原生记忆力」的大模型亮相,但不是Transformer
  • 手机AGI助手还有多远?移动智能体复合长程任务测试基准与调度系统发布
  • 实测爆火的阶跃星辰Step 3,性能SOTA,开源多模态推理之王
  • 图灵奖得主Hinton国内首次现身演讲:AI超越人类后,我们该怎么做
  • GPT4核心成员、清华校友赵晟佳任Meta超级智能实验室首席科学家
  • 磐石·科学基础大模型:人工智能赋能范式重塑,科学研究开启无限可能
  • WAIC2025 开幕,规模创历届之最;宇树发布第三款人形机器人;上海警方通报饿了么原 CEO 受贿案|极客早知道
  • ICML史上首次,中国内地高校教授出任董事!北大林宙辰、上交大严骏驰获选
  • AI教父Hinton首次现身中国,合照全网刷屏!预警AI觉醒临界点已至
  • AI破解宠物心声,读懂你的猫狗?全球首个AI与动物感知中心揭秘
  • 老黄自曝刚报废50亿美元显卡!亲自审查4.2万名员工薪酬,100%都加薪
  • Who’s Adam?最逆天的NeurIPS评审出炉了
  • 自猎网AI Agent招聘求职产品与自猎AI面试官智能体在京发布,智能求职招聘时代正式开启!
  • A800、H800都低到这个价了,这个暑假搞了点算力福利
  • Agent KB:经验池让Agents互相学习!GAIA新开源SOTA,Pass@1性能最高提升6.66
  • 用友大易联合 HR SPACE发布《2025年企业AI招聘应用成熟度报告》!
  • 150PB工业数据+智能体革命,西门子开启AI制造新纪元
  • 解道奥赛题成本5000美元?陶哲轩警告,AI下一步要规模化的「更便宜」
  • 港科大&北京人形提出LOVON:足式机器人开放世界全域目标追踪新范式!
  • 夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
  • ICML 2025 | 北航提出科学智算基础模型OmniArch,实现11类PDE求解性能提升
  • 北大-灵初重磅发布具身VLA全面综述!一文看清VLA技术路线与未来趋势
  • Meta出走华人创业团队,种子轮800万美元,要打造视觉AI记忆大脑
  • 传 GPT-5 将在 8 月初发布;马斯克转发懂车帝辅助驾驶测试;腾讯股价创四年来新高|极客早知道

不靠海量数据,如何精准喂养大模型?上交Data Whisperer:免训练数据选择法,10%数据逼近全量效果

图片

本文第一作者王少博为上海交通大学博士生,现于阿里 Qwen 团队实习,此前有 CVPR 满分一作论文。通讯作者为其导师、上海交大助理教授张林峰。本文其他作者来自上交 EPIC Lab、NTU、NUS、微软、上海 AI Lab、港科大(广州)等。

从未微调目标数据集,一个预训练模型竟能自己筛选出「黄金训练样本」?

上海交通大学等团队提出 Data Whisperer —— 首个免训练的注意力驱动数据选择框架。它直接利用预训练模型的上下文学习(ICL)能力,无需额外微调打分模型,仅用 10% 数据就能让微调效果逼近全量数据!

就像一位精通教学的导师,看一眼题库就知道该让学生重点练什么题。

图片
  • 论文标题:Data Whisperer: Efficient Data Selection for Task-Specific LLM Fine-Tuning via Few-Shot In-Context Learning

  • 论文链接:arxiv.org/pdf/2505.12212  

  • GitHub 地址:gszfwsb/Data-Whisperer  

  • 关键词:数据选择、上下文学习、小样本泛化、结构对齐

精调大模型,数据挑对才关键

模型说:「别给我扔几百万条数据了,你先告诉我哪些题值得看!」

传统的数据选择方法:

  • 要先训练个打分模型;

  • 要调一堆启发式参数;

  • 要花一堆时间还不一定好用;

而 Data Whisperer 就像摸鱼同学中的学霸 —— 不看全书也能稳拿高分。

方法机制:只靠模型自身,打分挑数据

Data Whisperer 是一种以大模型自身为评估器、完全免训练的数据子集选择方法。

1. ICL 少样本构建

  • 随机采样若干「示范样本」和「查询样本」,构建 ICL 提示;

  • 让待精调的大模型尝试回答这些查询任务;

  • 根据回答质量,给每个「示范样本」打一个分。

2. 引入注意力感知权重

  • 为了让「题目权重」更加合理,Data Whisperer 不只看输出结果;

  • 它利用 Transformer 的注意力权重,度量每个示例对模型推理的「影响力」;

  • 最终打分由模型输出与注意力贡献共同决定,更稳定、更合理。

图片

这种打分机制是完全无需训练、无需人工标注的!

Data Whisperer 不是「拍脑袋选题」,理论也站得住脚!

在传统精调中,模型通过梯度下降显式更新参数,比如注意力权重的关键值(Key)矩阵 W_K 和数值(Value)矩阵 W_V:

图片

其中图片 是通过反向传播学到的参数更新。

而在 ICL 过程中,虽然模型参数固定不变,但通过上下文中的示例(demonstration tokens)对注意力进行加权,使得模型在预测时行为发生了「类精调」式的变化:

图片

这里的 图片并非真实权重更新,而是通过注意力机制 「模拟出的权重调整」。这正是 Data Whisperer 利用的核心。

也就是说,ICL 就像是在不动参数的前提下,用「语言上下文」在行为上更新了模型。

精调谁还全训?我 10% 数据照样打赢!

让我们看看 Data Whisperer 的「压轴战绩」:

  • GSM8K 数学题:10% 数据打出 72.46%,还比全量数据(71.39%)更高;

  • DialogSum 总结任务:用 Qwen 模型达到 43%,比最强 SOTA 方法高出 2.5 个点;

  • BioInstruct 任务也同样提升显著。

图片

别人还在选题,我已经开始精调了

Data Whisperer 引入了一个新的效率指标:Selection-to-Tuning Ratio(STR),即选择过程耗时与全量精调耗时之比。

在该指标下,Data Whisperer 以 STR ≈ 0.03~0.2 的水平,大幅领先现有所有方法。相比之下,许多传统方法(如 Nuggets)STR > 1,意味着「选题还不如直接精调快」。

Data Whisperer 用极低成本完成了模型适配所需的「预判题型」工作。

图片

小模型选题,大模型精调,谁用谁知道!

Data Whisperer 支持弱模型作为「选题器」,强模型作为「学习者」的弱选强训(weak-to-strong)机制。

例如,使用 Qwen-2.5-3B-Instruct 选题、再用 Qwen-2.5-7B-Instruct 精调,最终性能几乎不降,却带来更低计算负担。

Data Whisperer 成功实现了从小模型到大模型间的「知识前置迁移」,适用于资源受限场景下的精调任务。

图片

演示题和查询题怎么配?精细搭配才能挑好!

Data Whisperer 进一步分析了 ICL 中示例(n_d)与查询(n_q)数量对选择效果的影响。

结果显示,n_d=10、n_q=5 是稳定优选配置。在此之后增加样本数量,效果提升趋于饱和。

这表明 Data Whisperer 对输入规模具有良好的鲁棒性,不是靠堆样本,而是真挑核心

图片

哪层注意力最好用?

Data Whisperer 的注意力打分依赖于 Transformer 的层级结构。作者分别测试了浅层、中层、深层注意力用于打分的效果。

结果发现,中间层(如 Layer13)提供的语义信息更稳定,选题效果更佳,符合语言模型内部语义聚合的层次分布规律。

Data Whisperer 巧妙借力模型结构,使「注意力」真正发挥了「注意」的功能。

图片

模型偏好什么题?简单好懂才是王道

进一步的分析中,作者使用 GPT-4o-mini 对被选中样本的困惑度(perplexity)进行了评估。

发现 Data Whisperer 倾向选择困惑度较低的样本,说明模型更喜欢「简单题」,也符合 Sorscher 等人在小样本学习中的「易例优先」理论。

图片

对比分析:到底比哪些方法强?

Data Whisperer 在所有主流数据选择方法对比中均展现出领先效果:

  • GraNd:基于梯度;

  • EL2N:基于预测误差;

  • CCS:注重多样性;

  • Nuggets:需要额外精调打分器;

  • STAFF:组合打分策略。

Data Whisperer 在准确率、效率、稳定性三个维度全面领先,尤其在低预算(1%、5%、10%)场景中优势明显。

Data Whisperer 的秘诀:ICL 就是精调的「影子」

Data Whisperer 并非经验规则,而是基于理论支撑。

论文从注意力机制视角出发,分析了 ICL 过程中上下文样本对模型输出的影响,实质上等价于一种隐式的参数更新

ICL 调整注意力权重 ≈ Fine-Tuning 调整参数矩阵

两者都是为了「让模型在未来输入中表现更好」。

这一结构上的对应性解释了 Data Whisperer 能有效选出训练子集:它无需调模型参数,就能「预训」出训练效益

启示与未来方向

Data Whisperer 所倡导的是一种新范式:结构感知、推理驱动的数据选择方法,为 LLM 训练过程引入「自解释、自判断」的机制。

值得注意的是,字节 Seed 最新的工作 (https://arxiv.org/abs/2505.07293),也用了类似 few-shot 和 attention 结合的方法。

接下来值得探索的方向包括:

1. 将方法迁移至法律、医疗、工程等复杂结构任务;

2. 引入人类反馈或语言理解偏好,进一步增强「任务对齐」能力;

3. 结合 prompt 工程,控制示例顺序以提升效果;

4. 与合成数据方法融合,构建任务驱动的多源样本库。

总之,Data Whisperer 并不是简单优化效率的技巧,而是揭示了一个事实:

  • 任务对齐不必依赖人类标签、不必堆数据量。

  • 结构化的推理机制与任务映射,本身就可以引导模型学习方向

未来的大模型训练也许不再是「知道做什么」,而是「知道问什么」。

]]>

联系我们