动态列表

  • 刚刚,ChatGPT Pulse上线!私人秘书不再是富人特权
  • 颠覆算力格局!全球首个星座级太空AI算力服务,在中国诞生
  • OpenAI 3万亿美元测试,AI首战44个行业人类专家!
  • JHU教授揭秘学术潜规则:普通博士如何打破鄙视链翻盘?
  • Hinton预言错了!年薪狂飙52万美元,AI没有「干掉」放射科医生
  • 168 元一年的「小红卡」,是小红书打破本地生活红海的钥匙
  • 当 5 亿玩家涌入 AI 的 3D 新世界
  • 普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
  • 博士申请 | 香港中文大学(深圳)冀晓强老师课题组招收人工智能全奖博士/硕士
  • AI 到底会不会做生意?1688 的答案让人惊喜
  • 找人不求人?Lessie 让「人脉玄学」变成算法游戏|AI 上新
  • 浙大发布RS3DBench:让遥感AI看懂3D世界,首个像素级对齐的大规模基准来了!
  • 斯坦福推出VisualMimic:让机器人“眼观六路”,零样本完成复杂任务
  • 小米 17 系列发布,4499 起;追觅「库里南」图片曝光;YU7 Max 成「百万最速」车
  • 刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
  • AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
  • Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步
  • 信息熵之后,清华提出状态熵!量化分析「系统智能性」的全新视角
  • 突发!Meta刚从OpenAI挖走了清华校友宋飏
  • KV缓存不再爆!清华姚期智团队重写注意力维度,长上下文更省更强 | NeurIPS 2025 Spotlight
  • 78条打穿1万条!上交大新范式告诉你:智能体训练靠“质”,不是靠“量”
  • 北京内推 | 中科院软件所数据科学研究中心招聘大语言模型算法实习生
  • 三款骁龙芯片曝光,高通谷歌联手打造「安卓 PC」时代
  • Instagram 月活破 30 亿,靠“短视频”和“私信”;2027款iPhone曝光;女子用ChatGPT选号中百万大奖,全部捐出
  • 一年4次迭代,狂堆GPU成真!微软AI冷液灌芯,散热暴涨3倍
  • 刚刚,阿里CEO吴泳铭发布「ASI宣言」:超级智能才是终局!
  • 前Meta工程师爆料:17人团队15个H-1B!一夜之间80%对手没了?
  • 秘塔AI放大招!「边想边搜边做」,内置20+智能体,想法一键实现
  • 震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失
  • OCRBench v2 25年9月最新榜单发布!揭示多模态大模型文档智能真实水平
  • 恶劣天气下的图像修复:南理工等提出LCDiff,让AI在雨雪雾天也能看得清
  • 博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生
  • NeurIPS 2025 | 甩掉文本CoT!FSDrive开启时空思维链,自动驾驶迈入视觉推理时代
  • RL不再撒胡椒面!港科大 × 清华新作:只盯“规划token”,大模型推理力狂飙
  • 3 天卖完今年所有产能,蔚来全新 ES8 如何实现逆风翻盘?
  • 超越 AGI,阿里剑指「超级智能」
  • Point-SSM:一种用于点云分析的极简状态空间模型,在医学点云任务上表现SOTA
  • ContextFlow:无需训练的视频编辑新范式,实现电影级魔改!
  • 字节跳动OmniInsert炸场:无需掩码,任意物体“贴”进视频,效果碾压闭源SOTA!
  • 忘了法拉利,一辆中国车正在改写游戏规则
  • 40亿投进去,换回了什么?全新问界M7的「值得」哲学
  • 华为问界新 M7,1 小时大定 3 万;李想:iPhone 17 顶配太丑,不买;防台风,腾讯「捆绑」QQ 企鹅塑像
  • 一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相
  • 告别胶水代码,5倍飚速!无问芯穹首次揭秘,Infra智能体蜂群登场
  • Depth Anything再出新作!浙大 & 港大出品:零样本,优化任意深度图
  • H-1B「天价签证」引爆恐慌!印裔精英返乡梦碎,2800亿市场剧震
  • 突发:甲骨文CEO下台!刚和OpenAI签下3000亿美元大单,或因路线斗争
  • 年轻一代创作者,学会与 AI 共舞
  • MiniCPM-V 4.5技术报告正式出炉!首个高刷视频理解多模态模型全解析
  • KDD 2025 | 从个股偏离到市场共振:UMI挖出股市非理性因子,显著提升预测精度
  • 一套框架搞定图像定制!IC-Custom统一「位置相关/无关」,万物迁移真落地
  • 北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
  • Yann LeCun团队新作LLM-JEPA:结合联合嵌入预测架构,显著提升大模型微调性能与效率,在代码生成任务上表现卓越
  • SilentStriker:无声击溃大模型
  • TPAMI | 数据增强还在“盲操”?南大提出IPF-RDA,让模型训练告别信息丢失
  • 小米 17 系列手机官宣 9 月 25 日发布;iPhone 17 标准款需求超预期,苹果已增产;罗永浩再回应债务问题:个人债务五年前就还完了,后面是主动还的公司债务|极客早知道
  • 比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升
  • 陶哲轩官宣AI数学基金首轮名单:29个项目瓜分1.3亿,数学界沸腾!
  • GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭
  • 一手奶瓶一手键盘!新手宝妈产假氛围编程,自研实用家庭App
  • 刚刚,DeepSeek-V3.1「终极版」重磅发布!最大提升超36%,V4/R2还远吗?
  • 为了千元机用户的「流畅权」,OPPO 为安卓换了个「引擎」
  • ​一年卖出 10 个亿,这是年轻人真正的「户外神器」
  • Teable 宣布完成数百万美元天使轮融资,让数据库「长出耳朵和手」
  • 博士申请 | 复旦大学魏龙老师课题组招收AI4Science方向博士/硕士/RA/实习生
  • Lumos-1登场!自回归 + 离散扩散合体:让大模型真正“构造”动态世界!
  • RLHF要下岗?Meta × 牛津搞出新套路:用算力教算力,大模型训练新范式来了!
  • 北京内推 | 智源研究院多模态交互研究中心招聘多模态/具身智能方向研究型实习生
  • 不到两千块,我拍到了专业级别的月全食|New Things
  • 苹果发布Manzano:一种简单可扩展的统一多模态大模型,其混合视觉Tokenizer统一了理解与生成任务,性能SOTA
  • 字节跳动SAIL-VL2登顶OpenCompass,开源高效多模态新标杆
  • 博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
  • 黄仁勋出手,50 亿美元入股英特尔,英伟达一统「GPU+x86」生态
  • 巴菲特清仓比亚迪,期间股价上涨 38 倍;苹果折叠屏手机细节曝光;雷军年度演讲定档 9 月 25 日
  • 刚刚,Gemini「灵魂人物」官宣加盟xAI!马斯克火速转推背书
  • 靠10万+粉丝,北漂插画师秒贷款!华为全栈AI加速,让银行及时看见
  • 醒醒,LLM根本没有性格!加州理工华人揭开AI人格幻觉真相
  • 哈佛大佬都哭了!H-1B签证飙至10万刀,微软谷歌连夜召回全球员工
  • 马斯克xAI百天血战,100天狂招100人!联创实权被削,豪言干掉微软
  • 全球双榜SOTA!明略科技专有大模型 Mano开启GUI智能操作新时代
  • 谷歌Gemini IMO和ICPC夺金功臣之一被xAI挖走,马斯克直呼:起飞
  • 工业级3D世界构建提速90倍!全新框架LatticeWorld让虚拟世界「一句话成真」
  • 集合通信库VCCL释放GPU极致算力,创智、基流、智谱、联通、北航、清华、东南重磅开源
  • 告别视频“抽帧”理解,美国东北大学新算法GRT算法实现高效可扩展的高帧率密集视频理解
  • 【招生招聘】阿卜杜拉国王科技大学孟彦达博士组全奖博士、博后、实习、交流生
  • iPhone17 卖爆,官网发货延至双 11;比亚迪仰望 U9 赛道版开启预定;网友玩坏 iPhone「舌头刷抖音」
  • 「逆龄大脑药」首次人体试验!奥特曼押注RTR242,返老还童将要成真?
  • 终结CMU霸权,清华首次登顶CSRankings世界第一!北大AI领域夺冠
  • 大模型训练新突破!Meta提出LSP:无数据也能实现能力飞升
  • OpenAI最新硬件2026年底亮相!狂挖苹果20+老将,首款神秘设备或将颠覆iPhone
  • 小扎AI眼镜当场死机,CTO自曝灾难级演示内幕:一个指令干趴自家服务器
  • 当大厂「卷」Agent,腾讯选择「下产线」
  • 陈天桥旗下AI公司MiroMind打造全球顶尖预测型大模型,性能登顶行业基准
  • OpenAI从苹果挖了20多人搞硬件,知情人士:苹果创新缓慢、官僚主义令人厌倦
  • Mini-Omni-Reasoner:实时推理,定义下一代端到端对话模型
  • TPAMI 2025 | DiffMVS/CasDiffMVS:一种置信度感知的扩散模型,实现轻量且准确的多视图立体三维重建
  • 北大等提出BEVUDA++,首次解决BEV感知跨域难题,夜间检测性能提升12.9%
  • iPhone 17 Pro 首日即现划痕;传 OpenAI 联手立讯做 AI 硬件;2025 年搞笑诺贝尔出炉

128k死穴被击穿!Amazon爆改长上下文:段内压缩快4×,推理不掉点还更准

原创 让你更懂AI的 2025-09-26 17:35 北京

2×压缩→TTFT最高4×,KV ½,长文更准

在大模型的发展历史上,「上下文长度」一直是横亘在研究和应用之间的最大鸿沟之一。

无论是百万行代码的全局理解,还是上百页文档的精确问答,当输入序列超过数万 token,现有 LLM 都会遭遇同样的困境:

  • 计算复杂度随长度平方级上升,推理延迟严重;

  • KV 缓存膨胀,显存消耗成倍增加;

  • 注意力稀释,模型在长上下文中容易「迷失中间」。

这几乎成了 LLM 的「死穴」——即使 GPT-4o、Claude 3 这样的顶级闭源模型,也要付出极高的工程代价才能支撑 128k 甚至更长的上下文。

Amazon 最新提出的 CompLLM,用一种极为简洁却有效的「段内软压缩」思路,正面击穿了这一瓶颈。在 2× 压缩率下,它让 Time To First Token 提速最高 4×,KV cache 占用减半,而且在超长上下文中反而更准。

这不仅是一篇研究论文,更可能是长上下文处理范式的一次拐点。

论文题目:

CompLLM: Compression for Long Context Q&A

论文链接:

https://arxiv.org/pdf/2509.19228

为什么传统「整块压缩」走不通?

在长上下文研究的语境里,「压缩」几乎是所有人第一时间想到的解法。方法大致分为两类:

  • 硬压缩:通过摘要、删句子、改写提示,来缩短输入。优点是简单直观、可解释,但往往压不狠,一旦删错,就直接丢掉关键信息。

  • 软压缩:通过学习一个映射,把原始 token 嵌入压缩成更短的 latent 向量,再交给 LLM 继续处理。这类方法更灵活,理论上也能压得更狠。

问题在于,绝大多数软压缩方法选择了「整块压缩」:把整篇上下文一次性打包进压缩器。听起来很合理,但实际落地却带来三个致命问题:

1. 复杂度没降下来:虽然输出序列变短了,但压缩器本身仍需全局处理上下文,复杂度依然为 。这就好比:你花了巨大的代价把一本 500 页的书压缩成 50 页,但过程本身就已经把时间耗尽。

2. 压缩结果无法复用:想象你有文档 A 和 B,如果第一次问「比较 A 与 B」,压缩器会生成一个 A+B 的整体表示。但当你下一次想问「比较 A 与 C」时,A 必须重新压缩,无法直接复用。这对真实场景中的 RAG 或代码助手简直是灾难。

3. 信息「越救越稀释」:整块压缩把所有 token 搅在一起,压缩器在有限的 latent 空间里往往难以突出重点。结果是:不是把答案相关信息埋没,就是把注意力分散到无关内容上。上下文越长,这种「注意力稀释」现象越严重。

因此,虽然「整块压缩」在论文里看似可行,但在真实的长上下文应用场景里,它更像是一个「治标不治本」的临时方案。

Amazon 的 CompLLM 正是针对这些痛点提出的:既要真正把复杂度从平方拉直成线性,又要让压缩结果能被缓存和复用,还要避免注意力稀释。这就是它能被称为「击穿死穴」的关键所在。

CompLLM的段内软压缩

复杂度如何从平方降到线性?

在标准 Transformer 中,注意力的复杂度为:

其中 是上下文长度。这让长上下文处理成本高得难以承受。

CompLLM 的突破点在于:将输入划分为长度为 的小段,每段独立压缩为 个概念嵌入(Concept Embeddings, CEs)。于是,整体复杂度变为:

由于 是固定常数(例如 20),复杂度随 呈线性增长,而不是平方增长。

▲ 图1. 段内压缩示意图

注:长文本被切分为多个小段,每段独立压缩后再拼接,从根本上避免全局 的开销。

CEs:把语义打包进更少的向量

在标准输入中,每个 token 对应一个 Token Embedding (TE)

CompLLM 提出 Concept Embedding (CE),即将一段 token 的信息「压缩打包」成更少的向量。

映射函数形式化为:

其中:

  • = 段长(例如 20)

  • = 向量维度

  • = 压缩率

例如,当 时,一段 20 个 token 压缩为 10 个 CEs,序列长度减半。

▲ 图2. TE → CE映射

注:多个 token 被映射为更少的概念嵌入,充当语义浓缩包。

训练目标:只对齐答案相关token

压缩器的训练关键在于:只对齐 答案相关 token 的隐状态,而不是强行复现所有 token。

论文的训练损失分三部分公式给出:

(1) 每层的蒸馏损失

其中 是答案 token 的索引集合, 是教师隐状态, 是学生隐状态。

(2) Smooth L1 损失定义

其中 。这确保了小误差时更平滑,大误差时不至于梯度爆炸。

(3) 总体训练目标

这个目标确保压缩后的上下文 与原始上下文 答案相关 token 的表征上一致,从而保留了回答所需的关键信息。

▲ 图3. CompLLM训练流程

注:上下文被切段并压缩成 CEs,与问题拼接后输入 LLM,仅在答案相关 token 上计算蒸馏损失。

压缩≠掉点,CompLLM越压越准

2×压缩,4×提速

推理速度显存占用方面,CompLLM 展现了巨大优势。在 2× 压缩率下,首 token 的生成速度(TTFT)最高可加速 4 倍,同时 KV cache 的占用减少一半,整体生成速度也接近翻倍。这意味着用户在处理长上下文任务时几乎可以“秒回”,而部署成本也大幅下降。

▲ 图4. CompLLM在2×压缩下实现TTFT提速4×,KV cache减半,生成速度翻倍。

总结:压 2×,首 token 提速 4×,显存压力直接腰斩!

四大数据集:上下文越长,反超越大

在 NarrativeQA、SQuAD、RACE 和 QuAIL 四个数据集上,CompLLM 的表现呈现出鲜明趋势:短上下文时与基线持平,但一旦超过 50k token,模型准确率显著反超,普遍提升 2–3 个百分点。

这说明压缩后的表示实际上减轻了注意力稀释,使模型在超长上下文中更专注于关键信息。

▲ 图5. CompLLM 在四个数据集上,长上下文下准确率显著超过基线。

总结:上下文越长,CompLLM 越能“反杀”基线!

LOFT 128k:小模型也能闯地狱模式

在极具挑战性的 LOFT 128k 基准上,小模型通常表现极差。但 CompLLM 显著提升了小模型的表现,不仅超过无压缩基线,还在部分任务上逼近闭源大模型。

▲ 表1. 在 128k 超长上下文下,CompLLM 让小模型依然保持稳定优势。

总结:CompLLM = 小模型的“长上下文外挂”。

与LLMLingua-2的正面对比

作者还将 CompLLM 与另一种分段压缩方法 LLMLingua-2 进行了对比。在 50k 以下的主流场景,CompLLM 明显更优;在 100k+ 超长上下文下,两者表现接近。这说明 CompLLM 在企业级 RAG 等应用中更具实用性。

▲ 图6. CompLLM 在常见上下文区间稳定优于 LLMLingua-2。

总结:主流场景下,CompLLM 比竞品更稳、更强。

模块化设计,可快速适配

很多方法在论文里看起来很亮眼,但落地时往往要改造模型结构,甚至重新训练整个模型。CompLLM 的不同之处在于:它把压缩器设计成一个独立模块,主模型权重保持冻结,因此在工程上具备较强的灵活性。

需要明确的是,压缩器本身仍需训练或微调,才能与目标模型匹配,并不是零成本开箱即用。但一旦完成适配,就能:

  • 缓存可复用在 RAG、代码助手等场景里,压缩结果可以重复调用,省算力、省显存;

  • 线性扩展复杂度 O(N),只需重压修改部分,不必全量重跑;

  • 正交优化能与 FlashAttention、PagedAttention 等现有优化手段叠加;

  • 长序列更稳在超长上下文下,压缩不仅不掉点,还能缓解注意力稀释。

总结:CompLLM 的优势在于模块化 + 高复用,它降低了长上下文的工程门槛,但仍然需要训练压缩器来适配具体模型。

死穴被彻底击穿

长上下文一直被认为是 LLM 最难攻克的“死穴”:平方级的计算复杂度带来算力瓶颈,KV 缓存的爆炸增长拖垮部署成本,而注意力的稀释更让模型在长序列中“迷失中间”。无论是 GPT-4o 还是 Claude 3,哪怕撑起了 128k 上下文,也都付出了极高的代价。

CompLLM 的出现,意味着这道坎第一次被真正“击穿”。它没有依赖新的架构,也没有堆算力,而是用一种极简却有效的方式,把长上下文问题转化为可线性扩展的工程任务:切段、压缩、再拼接。结果是——推理更快、显存更省,而且在超长上下文下答案更准。

更重要的是,这不仅仅是一种加速技巧,而是一种范式转变:未来的长上下文处理,不再依赖“算力豪赌”,而是依靠更聪明的输入处理和信息压缩;长上下文能力,也不再是闭源巨模的专利,而会成为开源社区和小模型都能负担的标配。

CompLLM 让长上下文从“昂贵奢侈品”变成“人人可享的基础能力”。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们