动态列表

  • 1美元颠覆6000亿广告界,哥大辍学天才30天狂飙500万营收
  • 从游戏少女到AI女神!她用物理驯服AI,让飓风预测快1000倍
  • 全球首个AI科学家天团出道!007做实验碾压人类博士,生化环材圈巨震
  • 只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%
  • 刚刚,ICML 2025录用结果公布!好评论文惨遭拒,审稿人敷衍引全网怒喷
  • Aero-1-Audio: LMMs-Lab发布1.5B音频语言模型,长音频转录直出,性能优异!
  • ICML 2025放榜!接收率26.9%,高分被拒,低分录用惹争议
  • LoRA中到底有多少参数冗余?新研究:砍掉95%都能保持高性能
  • 浙大&港理工等提出InfiGUI-R1:利用强化学习,让GUI智能体学会规划任务、反思错误
  • Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
  • 马斯克怒怼特斯拉换帅报道;苹果库克称关税成本暂不转嫁给消费者,但未来难说;游戏科学获五四青年奖章集体
  • AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥
  • 北大出手,物理学院天才们教AI「做人」!PHYBench成大模型物理能力试金石
  • DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
  • 被Transformer光芒掩盖的论文,Meta科学家回顾十年前创新之作
  • 后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
  • ScienceOne正式发布:基于科学基础大模型的智能科研平台
  • 一个月 78 块的 AI 日历,治好了我的「万事开头难」
  • DeepSeek 发布 Prover-V2 模型;小米首个推理大模型开源;饿了么宣布超百亿补贴加入外卖战局
  • 2万亿巨兽来袭,小扎亮底牌! 首次回应Llama 4风暴,开源榜单背锅
  • 清华出手,挖走美国顶尖AI研究者!前DeepMind大佬被抄底,美国人才倒流中国
  • 刚刚,DeepSeek-Prover-V2-671B开源!
  • 发布 Qwen3,阿里云拉开新一轮开源模型竞赛的序幕
  • Video-XL-Pro:端侧3B模型长视频理解新sota!性能赶超7B巨头!
  • 解决200种复杂材料,10Å尺度模拟纳米晶体,哥大团队用4万个原子结构训练AI,登Nature子刊
  • 真·开源MCP平台来了!ACI.dev能一站直连600+工具,让你的智能体秒变全能王!
  • 刚刚!OpenAI回滚了最新版本的GPT-4o,因ChatGPT「过度谄媚」
  • 只花9美元,推理能力暴涨20%!小模型Tina震撼登场,成本缩减260倍
  • 上交大推出首个AI智能体协议全面综述:从碎片化到互联互通的智能体网络
  • CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP,大模型训练最高加速3.8倍
  • R1-Zero的无监督版本来了!SFT不再是必须,EMPO重新定义大模型推理微调
  • ICLR 2025 | 差分注意力机制爆火!DIFF Transformer击穿长文本建模天花板
  • 北邮-腾讯联合提出多任务提示调优推荐框架MPT-Rec,实现效率性能双突破
  • 北京内推 | 中电信人工智能公司招聘多模态大模型算法实习生
  • 沃尔玛通知中国供应商恢复供货;Meta 推独立 AI 助手,融合社交元素;因「过于奉承」,OpenAI 撤回更新
  • AI包办79%代码,程序员饭碗不保!前端开发要凉,人类只配改Bug?
  • 细思极恐,AI操控舆论达人类6倍!卧底4月无人识破,Reddit集体沦陷
  • 大模型时代,百度智能云迎来最大机会
  • 我用Qwen3实测了9道经典难题,再聪明的AI也有犯傻的时候
  • 「拍照问夸克」,从「Know-What」到「Get it Done」的跃迁
  • 终端云端三连发!无问芯穹开源大模型推理加速神器,加码构建新一代端、云推理系统
  • 小红书,不止看车,更看生活
  • 阿里千问 3 登顶全球最强开源模型,性能超越 DeepSeek-R1、OpenAI-o1
  • GPU无上限+AGI顶尖课题!蚂蚁星「Plan A」全球招募下一代AI领航者
  • 模仿or探索?LUFFY:我全都要!巧妙融合外部指导,RL推理不再死板
  • 33,000美元奖金池!Meta CRAG-MM挑战赛开启,多模态RAG巅峰对决
  • 博士申请 | 香港中文大学MMLab岳翔宇老师招收人工智能全奖博士/RA/实习生
  • ChatGPT的尽头也是「带货」:3、2、1,上链接
  • ICLR 2025|首个动态视觉-文本稀疏化框架来了,计算开销直降50%-75%
  • 淘天集团“T-Star计划”首次向实习生开放,提供转正Offer
  • 猛击OpenAI o1、DeepSeek-R1!刚刚,阿里Qwen3登顶全球开源模型王座,深夜爆火
  • 语音领域ISCA Fellow 2025公布:上海交大俞凯、台大李宏毅等三位华人入选
  • 2025 Meta CRAG-MM Challenge 赛题发布
  • 上交大等探索键值压缩的边界:MILLION开源框架定义模型量化推理新范式,入选顶会DAC 2025
  • 蚂蚁密算福州发布密态可信数据空间:高性能、低成本和全链路安全
  • 海螺+可灵、上线两个多月、5万+围观,零破绽,这支AI广告藏得太深了
  • 阿里开源新一代通义千问模型 Qwen3;传刘强东曾和王兴共聚晚餐;马斯克:5 年内机器人将超越外科医生 | 极客早知道
  • AI 2027研究揭秘美国算力真相!中国全球AI专利Top1,但美国或以算力取胜
  • 华人博士用ChatGPT治病,比医生靠谱?OpenAI联创点赞
  • 100年企业知识超10万文件,「内网版ChatGPT」血洗最卷行业!全员70%和AI共事
  • AGI幻灭,LeCun观点得证?哈佛研究实锤AI不懂因果,世界模型神话破灭
  • 52页PPT,谷歌Gemini预训练负责人首次揭秘!扩展定律最优解
  • Apple Watch 10 周年,哪些「环」直到现在也没「合上」?
  • 从「黑科技」到「量产」,爱奇艺的虚拟制作进化论
  • 打造「无所不能、无处不在」的 AI,百度为何要从「操作系统」做起?
  • 北大物院200人合作,金牌得主超50人!PHYBench:大模型究竟能不能真的懂物理?
  • ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
  • ICLR 2025 | 大模型是否能做到有效“遗忘”?从梯度视角重新审视LLM反学习方法
  • ICLR 2025 | 基于多任务学习的回归范式实现更快的灵活分子对接
  • 智象未来x商汤大装置:全栈赋能全球首个开放使用视频生成DiT模型
  • 两篇Nature Medicine,DeepSeek、GPT-4o等LLM在医学推理、临床决策中的应用评估
  • AI+量子计算:港科大等提出突破性低温存内计算方案
  • 除了Ilya、Karpathy,离职OpenAI的大牛们,竟然创立了这么多公司
  • 字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
  • 首个系统性工具使用奖励范式,ToolRL刷新大模型训练思路
  • 模型压缩到70%,还能保持100%准确率,无损压缩框架DFloat11来了
  • 重磅发布 | 复旦《大规模语言模型:从理论到实践(第2版)》全新升级,聚焦AI前沿
  • AR智能革命!Satori系统读懂人类意图,科幻电影场景成现实
  • 受关税影响,美电商商品价格普涨;京东外卖扩招 10 万旗手;苹果 AI 智能眼镜有望 2027 年推出|极客早知道
  • 一行代码不用写,AI看论文自己「生」出代码库!科研神器再+1
  • OpenAI没说的秘密,Meta全揭了?华人一作GPT-4o同款技术,爆打扩散王者
  • 深度学习基础架构革新?通过梯度近似寻找Normalization的替代品
  • ICLR 2025 | 计算开销减半!Dynamic-LLaVA刷新多模态大模型推理加速上限
  • 迈向长上下文视频生成!FAR重塑下一帧预测范式,短视频与长视频双双登顶SOTA
  • 英伟达送钱送算力!数据过滤挑战赛开启:白嫖A100,冲击1万美金大奖!
  • 字节启动Top Seed大模型顶尖人才计划2026届校招
  • 纳米AI放大招!MCP万能工具箱,人人都能用上超级智能体
  • Devin开发团队开源DeepWiki,助你快速读懂所有GitHub代码库
  • ICLR 2025 | 无需训练加速20倍,清华朱军组提出用于图像翻译的扩散桥模型推理算法DBIM
  • 基于奖励驱动和自组织演化机制,全新框架ReSo重塑复杂推理任务中的智能协作
  • 阶跃星辰发布图像编辑模型 Step1X-Edit,性能开源最佳
  • 百度Create AI开发者大会:李彦宏发布两大新模型、多款热门AI应用,帮助开发者全面拥抱MCP
  • 清华系智谱×生数达成战略合作,专注大模型联合创新
  • 九章云极DataCanvas公司双论文入选全球顶会ICLR,推动AI解释性与动态因果推理核心进展​
  • 在介观尺度「找不同」?ML预测材料失效,使材料设计更安全
  • 阿里AI旗舰应用夸克发布全新“AI相机” 提升AI超级框多模态能力
  • 传马斯克 xAI 正寻求 200 亿美元融资;Waymo 未来或向个人销售自动驾驶汽车;贾跃亭回应「下周回国」梗
  • GPT-4.5功臣遭驱逐!奥特曼盛赞工作出色,美国深陷AI人才危机
  • 强化学习被高估!清华上交:RL不能提升推理能力,新知识得靠蒸馏
  • 美国政府「AI行动计划」万言书发布! OpenAI与Anthropic呼吁联手封锁中国AI
  • 全球开发者组团训练,首个异步强化学习32B推理模型震撼来袭!数据已开源
  • 70%大小,100%准确!完美压缩LLM性能0损失,推理速度最高飙升39倍
  • 秒杀同行!Kimi开源全新音频基础模型,横扫十多项基准测试,总体性能第一
  • OpenAI、谷歌等一线大模型科学家公开课,斯坦福CS 25春季上新!
  • 跨机型诊断难题新突破:上交大、商飞、东航打造国产大飞机时序大模型智能诊断新路径
  • 具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互
  • 20万奖金池×最火技术风口!欧莱雅集团首届Agent黑客松火热开启,等你来战
  • 蚂蚁集团全球招募顶尖AI人才
  • 人工智能接管核电站,商业化的智能核电管理是否正在路上?
  • Manus 获超 5 亿融资,估值涨 5 倍;苹果希望明年美售 iPhone 全部「印产」;传外卖补贴商家承担一半,京东回应

400万token新SOTA!英伟达UIUC联手:兼顾长短上下文顶尖性能



  新智元报道  

编辑:犀牛
【新智元导读】来自英伟达和UIUC的华人团队提出一种高效训练方法,将LLM上下文长度从128K扩展至惊人的400万token SOTA纪录!基于Llama3.1-Instruct打造的UltraLong-8B模型,不仅在长上下文基准测试中表现卓越,还在标准任务中保持顶尖竞争力。

大语言模型(LLM)在文本和多模态任务上已经展现出惊艳的表现。

像是最新的Gemini 2.5 Pro在文本及代码上的顶尖性能,以及GPT-4o的原生生图能力都很好的证明了这点。

然而,很多实际应用场景,比如长文档和视频理解、上下文学习以及推理时扩展,都需要模型能够处理超长的token序列。

在这些场景中,模型的上下文窗口受限往往成为一大瓶颈,因为分布在长文档中的关键信息可能会被忽略。

为了解决这些问题,来自英伟达和UIUC的研究者提出了一种高效的训练方法。

这种方法可以从现有的指令微调模型出发,构建超长上下文的LLM,最高可将上下文长度推向400万token的极限!

论文地址:https://arxiv.org/pdf/2504.06214

研究人员利用上面方法训练的UltraLong-8B模型在长上下文任务上达到了顶尖水平,同时在标准任务上也保持了竞争力。

主要贡献:

  • 高效且可扩展的训练方法

  • 关键技术创新:研究者引入了特殊文档分隔符和基于YaRN的位置编码扩展技术,通过消融实验证明这些技术对长上下文建模至关重要。

  • 高效的单步预训练策略:研究者发现,相比多步扩展方法,单步持续预训练在上下文扩展上更高效,在合成和真实世界长上下文基准测试中始终表现出色。

  • 全面的实验验证:研究者在多个基准测试上进行了广泛实验,包括RULER、LV-Eval、InfiniteBench、MMLU、MMLU-Pro、MATH、GSM-8K和HumanEval,证明UltraLong-8B模型在长上下文和标准任务上均优于现有基线。


实验方法


如图1所示,本文方法主要分为两个阶段:持续预训练指令微调

以Llama 3.1-8B-Instruct为基础,持续预训练阶段将模型的上下文窗口逐步扩展到目标长度(比如100万、200万、400万token)。随后,指令微调阶段优化模型的指令遵循能力和推理能力。

这两个阶段结合,让模型既能高效处理超长输入,又能在长短上下文任务中表现出色。

第一阶段通过持续预训练扩展模型的上下文窗口,采用特殊文档分隔符和基于YaRN的缩放技术来处理超长序列。第二阶段使用精心挑选的数据集进行指令微调,提升模型的指令遵循和推理能力

持续预训练:扩展上下文长度

在第一阶段,研究者通过持续预训练将Llama-3.1-8B-Instruct的上下文窗口扩展到目标长度。

研究者对少于4000 token的短文档进行下采样,对超过8000 token的长文档进行上采样,最终形成一个包含10亿token的语料库。

这些文档被拼接成对应目标上下文长度的更长序列(比如100万、200万、400万token)。拼接时,他们使用特殊字符分隔不同文档,而不是用保留的开始和结束标记。

此外,在持续预训练中,研究人员没有使用跨文档注意力掩码,从而允许模型关注整个输入序列。

为了支持超长上下文,研究人员采用了基于YaRN的缩放方法,而不是之前工作中常用的NTK感知缩放策略。他们固定超参数α=1和β=4,并根据目标上下文长度计算缩放因子s。

当输入长度接近最大限制时,Llama-3.1模型的性能会下降。为解决这个问题,他们为RoPE嵌入采用了更大的缩放因子,从而更好地适应超长序列。

研究者针对三种上下文长度(100万、200万和400万token)构建了长上下文模型,并将RoPE缩放因子分别设置为128、256和512。

每个模型在10亿token的语料上训练一个epoch,学习率为3×10⁻⁵。

为了提升训练的可扩展性,他们使用了Megatron-LM框架。为了处理超长输入序列,采用了张量并行和上下文并行。

训练在256个NVIDIA H100 GPU上进行,1M、2M和4M模型的训练时间分别约为5小时、6小时和13小时。

指令微调


在第二阶段,研究者通过监督微调(SFT)提升长上下文模型的指令遵循和推理能力,使用的是一些精心挑选的数据集。

他们整合并优化了多个开源SFT数据集,覆盖三个关键领域:通用领域、数学和代码。

为了进一步提升SFT数据集的质量,他们利用GPT-4o和4o-mini优化了这些数据集的回答内容。

值得注意的是,研究者的SFT数据集仅包含上述短上下文数据(少于8000 token的样本),没有加入合成长上下文指令数据。

他们发现,仅依靠短上下文数据就足以取得优异效果,这与之前研究的观察一致。

最终,研究者构建了一个包含10万个样本的SFT数据集。对于每种目标上下文长度的模型,他们使用128的批大小和5×10⁻⁶的学习率。

训练依然基于Megatron-LM 框架,在256个NVIDIA H100 GPU上进行,张量并行度设为tp=8。每次训练大约需要 30 分钟。


基线模型与评估基准


研究者将他们的模型与基于Llama家族的最先进(SOTA)长上下文模型进行对比,以确保对训练方法公平且可控的评估。

  • Llama-3.1 (Llama-3.1-8B-Instruct):这是他们的基础模型,支持128K的上下文窗口。

  • ProLong (Llama-3-8B-ProLong-512k-Instruct):基于Llama-3构建的长上下文模型,拥有512K的上下文窗口。

  • Gradient (Llama-3-8B-Instruct-Gradient-1048k):另一个基于Llama的长上下文模型,支持高达1M的上下文窗口。

本文研究者专注于Llama家族的模型,这样可以更清晰地展示他们扩展上下文长度训练方法的有效性,同时确保在标准任务上的性能依然具有竞争力。

他们通过以下基准测试来评估模型的长上下文能力:

  • RULER:这是一个专门评估长上下文语言模型的基准,通过生成不同序列长度的合成样本,覆盖四个任务类别。

  • LV-Eval:这是一个长上下文基准,包含最高256K token的五个长度级别,重点测试两种任务:单跳问答(single-hop QA)和多跳问答(multi-hop QA)。

  • InfiniteBench:这是一个长上下文基准,平均输入长度约200K token,最大长度超过2M token,包含合成任务和现实世界任务。


实验结果


研究人员首先从「大海捞针」(Needle in a Haystack,NIAH)这一测试开始,然后再探讨长上下文和标准基准的评估。

研究人员通过NIAH密码检索测试,评估模型在长上下文检索方面的能力。在这个任务中,模型需要在一大段毫无意义的文本中,找到一个简单密码,比如一个随机的六位数字。

为了量化检索的准确性,他们测试了40种不同的输入序列长度。对于每种长度,密码会被随机插入到10个均匀分布的文档深度中。

结果如图2所示。对于本文的模型,测试了高达100万、200万和400万个token的输入长度;而对于基准模型,只测试了最高100万个token。

如图2a到2c所示,在基准模型中,只有Llama-3-8B-Instruct和Gradient-1048k通过了NIAH测试,而Llama-3.1-8B-Instruct和Llama-3-8B-ProLong-512k-Instruct即使在它们声称的上下文长度内也出现了错误。

相比之下,如图2d到2f所示,研究者的超长(UltraLong)模型在所有输入长度和深度上都达到了100%的准确率,展现了强大的长上下文检索能力。

研究者在RULER、LV-Eval和InfiniteBench上的评估结果如表1所示。加粗的数字表示性能超过了所有基准模型。

总体来说,他们的三个模型在大多数情况下都取得了最高分。

在RULER基准测试中,UltraLong模型在512K和100万个token的输入长度上表现最佳。在LV-Eval中,他们的模型在128K和256K token长度内的平均F1分数最高。

此外,他们在InfiniteBench上也取得了最佳表现。

这些结果表明,研究者的训练方法有效扩展了语言模型的上下文窗口到超长输入,同时保持了原有输入长度的性能。

相比之下,基准模型中,Llama-3.1是为128K输入长度设计的,当输入超过128K token时,性能显著下降。ProLong是为512K上下文设计的,但即使它训练了更多token(410亿对比10亿),在512K长度上的表现也不如他们的模型。

Gradient是基准模型中支持最长上下文的(100万个token),但在LV-Eval和InfiniteBench上的表现较差,说明它的设计可能过于偏向人工任务,牺牲了现实任务的效果。

而本文的模型在人工(RULER)和混合(LV-Eval和InfiniteBench)基准测试中始终保持更高的分数,凸显了方法的高效性和可扩展性。

研究者还通过通用、数学和代码领域的标准基准测试评估了模型,以确保扩展上下文长度不会影响短上下文任务的性能。

如表2所示,他们的模型性能与基础模型Llama-3.1-8B-Instruct相当甚至更高,平均分数分别为62.47、61.06和60.95,而Llama-3.1-8B-Instruct为61.45。

特别值得一提的是,他们的模型在MMLU和MATH基准上表现出明显提升,同时在GSM8K和HumanEval等其他基准上的表现也极具竞争力。

相比之下,基准长上下文模型Gradient和ProLong在这些标准任务上的性能大幅下降,平均分数仅为37.36和40.81。

这些结果表明,研究者的方法不仅有效扩展了上下文窗口,还保持甚至提升了模型的通用任务能力。

而Llama-3-8B-Instruct-Gradient-1048k和Llama-3-8B-ProLong-512k-Instruct的显著性能下降,表明它们的超长上下文方法可能存在局限性。


结论


在这项工作中,研究人员提出了一种高效且系统化的训练方法,用于超长上下文语言模型,将上下文窗口扩展到100万、200万和400万个token,同时在标准基准测试中保持了竞争力。

这种结合了高效的持续预训练和指令微调,不仅提升了模型对长上下文的理解能力,还增强了其遵循指令的能力。

这一框架为可扩展的长上下文建模树立了新标杆,也为未来在实际应用中提升长上下文性能的研究铺平了道路。


作者介绍


Chejian Xu

伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学博士研究生,导师是Bo Li教授。浙江大学计算机科学与技术专业学士学位,就读于CKC荣誉学院,导师是Shouling Ji教授和Siliang Tang教授。

专注于提升基础模型的安全性、可靠性和一致性,包括LLMs、多模态模型以及基于LLM的智能体。

Wei Ping

NVIDIA应用深度学习研究团队的资深研究科学家,专注于大型语言模型和生成模型的研究。

加州大学欧文分校机器学习博士学位,热衷于构建用于文本、音频和多模态数据的尖端生成模型。此前,曾担任百度硅谷人工智能实验室(由吴恩达创立)的文本到语音团队负责人。

参考资料:
https://arxiv.org/abs/2504.06214

图片


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652590919&amp;idx=3&amp;sn=eec4530fef2253ebf6dcdc73be11b600&amp;chksm=f03cb22c78e07ce549c97b9a671b241dbfed590a188df0d6d98fd89197c2731d6b1c925c8982&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/8WSIOFi5q5&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们