动态列表

  • 图灵奖得主LeCun最后警告Meta!我搞了40年AI,大模型是死路
  • AI又封神了!华人新作直出憨豆+《猫和老鼠》,平行宇宙对上戏了
  • AI「逼宫」库克?苹果秘密计划曝光,接班人竟是M芯片之父!
  • 年度最强AI压轴!谷歌Gemini 3.0下周决战OpenAI,前端要下岗了
  • 安谋科技发了一枚 NPU,要把 AIGC 算力提升 10 倍
  • ICLR 2026吃瓜现场:有人用LLM连投4版论文,竟然拿到两个8分?
  • 宇树完成上市辅导,拟境内IPO;传索尼开发Labubu电影;2699元!原道X小岛秀夫耳机限量发售
  • AAAI 2026 Oral | 清华大学等提出SpatialActor:解耦空间感知,重度噪声下机器人操作鲁棒性暴涨19.4%
  • AI不懂痛苦,却成了你的深夜知己!170位医生教ChatGPT安慰人
  • 一条短信,7年恩怨!奥特曼与马斯克决裂曝出新隐情
  • 不会说英语的母亲,教出了5万亿英伟达CEO!
  • AI「牛顿」来了!北大团队新突破,看一眼数据就能推出物理定律
  • AAAI 2026 Oral | 中科院联合港大提出ARRA:外部视觉表征对齐重塑全局一致性,让自回归大模型充分释放图像生成潜能
  • 1899 元「iPhone 袜子」上架秒光;传华为 Mate80 上 20GB 内存;微信点赞苹果小程序政策
  • 全球最大开源具身大模型!中国机器人跑完马拉松后开始学思考
  • OpenAI拆开AI「黑箱」,终于可以看懂GPT在想什么了
  • LeCun在Meta的「最后一作」
  • 视觉压缩称王?谷歌死守AI黑科技,DeepSeek一夜开源
  • 大疆 OSMO Action 6 体验:完美进化,不止运动
  • iOS 为微信小程序「正名」,腾讯移动生态的新转机
  • WACV 2026 | PALMS+:融合深度基础模型,手机室内导航的技术再突破
  • “全模态”3D视觉基础模型OmniVGGT出炉!即插即用任意几何模态,刷新3D视觉任务SOTA,赋能VLA模型
  • GPT 5.1 发布了,但西方媒体准备「讲好中国故事」
  • AI、游戏双驱动,腾讯「赚麻了」
  • 对话李彦宏:Chatbot 不是一切,我在 AI 上看到了更让人兴奋的未来
  • OpenAI把Transformer训练成「几乎全零」,黑箱首次被彻底揭开
  • 杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
  • ACL 2025 | 用图结构让RAG学会「记忆与总结」,重塑长上下文理解
  • 传苹果从微信小程序抽成 15%,腾讯回应;特斯拉考虑支持 CarPlay;iPhone Air 成功支持实体卡 |极客早知道
  • 谷歌DeepMind最新论文,刚刚登上了Nature!揭秘IMO最强数学模型
  • ICLR 2026出分,审稿员怒喷「精神病」!DeepMind研究员教你绝地求生
  • GPT-5.1发布当天,文心5.0杀回来了
  • 一句「你还好吗」值40亿?斯坦福博士出走xAI,押注AGI共情力
  • 营收狂飙的「暗面」:Meta成「全球欺诈大本营」?
  • 小鹏科技日「太魔幻」:机器人走猫步,飞行汽车接近量产
  • Roboflow&CMU论文披露RF-DETR细节:首个COCO数据集突破60 AP实时目标检测,速度飙升20倍!
  • AAAI 2026 Oral 中科大联合西工大提出RSKT-Seg:专为遥感打造的高效开放词汇分割框架,推理提速2倍
  • 深度研究智能体真的“懂你”吗?OPPO × 浙大首发个性化深度研究评测基准
  • 博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
  • DeepSeek罗福莉正式亮相小米AI;「周杰伦概念股」联手宇树造 IP 机器人;乘用车百公里加速不少于5秒
  • 奥特曼下注27岁神秘青年,「复活」世界最顶级实验室
  • AI秒破18世纪「天书」账本!谷歌新模型盲测刷屏全网
  • Llama 4造假丑闻幕后:小扎豪赌143亿,却为中国AI「做了嫁衣」
  • 少年沉迷AI自杀,9岁遭性暗示!这门「孤独生意」,正推孩子入深渊
  • NeurIPS 2025 | 中科院携手快手发布LiveStar:首个“会说话、懂沉默”的直播AI,推理速度提升1.53倍
  • ConsistEdit:重新定义AI视觉编辑,港科大、清华等机构提出MM-DiT注意力控制新方法
  • 北京内推 | 阿里高德地图团队招聘大模型方向算法实习生(可长期/转正)
  • AAAI 2026 | 悉尼科技大学 × 港理工推出 FedVLR:让联邦推荐也能“懂图文”
  • 双十一算力真敢卷!RTX 5090低至0.69元/时,同预算跑更多实验
  • 对话元理智能张帆:为什么「商业强化学习」,才是 AI To B 的新出路
  • 深度复盘:大疆是如何成为影像领域新巨头的?
  • 传李想亲抓人事,华为系高管退出理想;Meta 首席 AI 科学家杨乐昆离职创业;AI 减肥或致饮食失调
  • Nature子刊:太空中建数据中心,无限能源,浙大首次证实可行!
  • 英伟达铁幕之后,谷歌AI芯片已成气候
  • 翻译界的ChatGPT时刻!Meta发布新模型,几段示例学会冷门新语言
  • 硅谷GPU蒙尘,马斯克一言成谶:美国AI被电卡脖子
  • 65岁图灵巨头离职创业!LeCun愤然与小扎决裂,Meta巨震
  • 年产值突破 150 亿,刚毕业的俊男美女涌入「团播」工厂
  • 马斯克想要 1 万亿,何小鹏只想等一句「牛 P」
  • 通往AGI的歧路:上海AI Lab重磅发现,自进化智能体可能“错误进化
  • 全模态到底是不是“1+1>2”?美团UNO-Bench揭示单模态与全模态能力的组合规律
  • 北京内推 | 百度文心一言基座团队模型组招聘大模型方向研究型实习生
  • NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”
  • 3DV 2026 | 特伦托大学等提出DEMO:让AI看懂复杂人体动作,实现密集描述新范式
  • 小米汽车 10 月销量近 5 万,YU7 超 Model Y;美团 AI 编程工具开启公测;马化腾王传福成智元机器人受益股东
  • AI版PUA!哈佛研究揭露:AI用情感操控,让你欲罢不能
  • AI领域全新热门职业,岗位需求今年已增长逾800%
  • 硅谷10万大裁员真相:AI根本没想取代你,是老板想干掉你
  • OpenAI试图绑架美国政府,奥特曼还有救命底牌?
  • 全球68%科研人压力爆表,高校AI人才集体大逃亡!
  • 「传统教育」的船快沉了,人们却还在挤「头等舱」
  • 保暖?排汗?时尚?户外运动装备这道「选择题」,亚瑟士要打破「不可能三角」
  • EMNLP 2025 | 别再只看KV了!LLM越深越稀疏:UNCOMP用矩阵熵给出答案
  • 北京内推 | 腾讯AI Lab招聘大模型/多模态大模型方向研究型实习生
  • 过去五年,BERT都在被“过度训练”?LeCun团队给出Encoder算力最优范式
  • 在 Cursor 工作 60 天,我发现了这家公司成功的秘密
  • 这款 AI 写作神器,让数百网文作者「月入过万」|AI 上新
  • ACM MM 25 当MLLM遇上行人重识别:是“降维打击”还是“水土不服”?深度评测来了!
  • AI“世界模型”离真实手术还有多远?首个外科视频生成基准SurgVeo揭示“合理性差距”
  • 美国AI巨头股缩水8000亿美元;传Meta靠诈骗广告收入超千亿;《英雄联盟》S15总决赛T1夺冠|极客早知道

无人工标注、可持续扩展:AcademicEval推动长文本评测进入“自更新”阶段

原创 让你更懂AI的 2025-11-16 12:27 北京

AcademicEval赋能长文本,评测基准的低成本自动化构建与更新

当今,LLM 已经在语言理解、推理和生成上取得了突破性进展,但面临长文本输入时性能往往急剧下降:模型“记不住”、推理链断裂、关键信息遗漏。这正是目前最棘手的长上下文理解问题。

近年来,研究者们提出了多个长上下文评测基准,如 LongBench、Bamboo、L-Eval、 ZeroSCROLLS、LooGLE 等,但它们仍存在三大瓶颈:

  • 上下文长度固定,无法灵活扩展;

  • 人工标注昂贵,规模受限;

  • 数据污染/泄漏严重,无法保持数据的动态更新。

这些问题导致难以以低成本高自动化的方式构建一个能够动态更新且不存在数据污染的评估基准以供长期使用。

为此,本工作的目标不仅是提出一个新 benchmark,更是探索一种可以自我进化的评测系统,一个能像模型一样学习、更新的长文本评估范式。

为了解决这些挑战,来自 UIUC 的研究团队近日在 TMLR 上发表了最新工作 AcademicEval: Live Long-Context LLM Benchmark,一个基于学术论文构建的、自动生成标签、无需繁琐人工标注、并能实时更新的长上下文评测基准。

设计核心一:从真实学术写作中提炼四类长文本任务

AcademicEval 将学术论文分解成四个具备层次抽象关系的写作任务:

  • Title Writing:根据论文正文与摘要生成标题

  • Abstract Writing:根据正文与标题生成摘要

  • Introduction Writing:根据正文(除了 Introduction)和摘要生成引言

  • Related Work Writing:结合正文(除了 Related Work)、引用文献的摘要生成相关工作描述

学术论文天然包含不同层级的语义抽象(如从正文到标题逐步压缩语义),因此可以自然形成多层次的长文本生成任务。更重要的是,每个部分的原始文本本身就可作为高质量标签无需额外人工标注,大幅降低了构建成本,并能全面考验模型的层次性理解长文本理解能力。

设计核心二:基于「Co-author Graph」的上下文生成

为了让评测基准具备可扩展性与可持续更新能力,AcademicEval 引入了 Co-author Graph 这一核心结构。

团队利用 arXiv API 获取论文数据并根据 Co-author 关系逐步构建 Co-author Graph:每个作者节点的特征是其已发表的一作论文,每条边代表首尾两个节点的作者有过至少一次合著论文的经历。

通过 Co-author Graph,我们可以根据 Co-author 关系快速找到同领域内的作者的相关论文,并使之潜在作为学术写作任务的高质量 Few-shot demonstration。

这种设计使模型的输入上下文能够按需扩展(flexible context length),既能模拟人类写作时参考同领域论文的习惯,又能在评测中考察 LLM 对长上下文 few-shot 信息的利用能力。

此外,通过将零散的论文组织成 Co-author Graph 结构,我们可以很方便的进行数据的周期性增量更新:通过访问 arXiv API 拉取最新论文加入到 Co-author Graph 中。

因此,Co-author Graph 同时承担了“数据组织结构”和“持续更新引擎”的双重角色,这种设计使得 AcademicEval 能够潜在成为真正意义上的 Live Benchmark:每一次评测都可以在最新的论文语料上进行,而这些论文几乎不可能在模型预训练时见过而导致数据泄露。

设计核心三:无人工标注、无泄漏、高动态

当前大多数长文本评测集都存在两大问题:一是需要人工标注,难以规模化;二是静态收集数据导致高风险的数据泄漏。

AcademicEval 通过利用论文原文作为天然标签、结合基于时间分割的动态更新机制,从根本上解决了这两大痛点。

具体来说,AcademicEval 不再依赖人工标注,每一篇论文的原始内容(如标题、摘要、引言等)天然就是高质量标签。

通过周期性增量更新以及时间分割(Chronological Split),保证测试集始终由最新论文组成,从而确保 AcademicEval 无数据泄漏。

论文中还设计了几种直观的基于 Co-author Graph 的周期性更新流程,从任选的 Author Node 出发进行图遍历并执行如下几种操作:

1. Node Update:检测作者是否发表新作;

2. Node & Edge Update:扩展其共著关系;

3. Graph Pruning:移除长时间未活跃的作者节点。

得益于结构化的数据管理,AcademicEval 能在维护 Co-author Graph 结构的同时保持评测新鲜度与效率。

全面实验:长上下文 LLM 的真实挑战

研究团队对多种模型进行了系统评测,包括:

  • 标准 LLM:Gemma-7B、LLaMA-3-70B

  • 长上下文 LLM:Qwen-72B、Mixtral-8x7B、Hermes-8x7B-DPO

  • 检索增强模型(RALM):BM25、Contriever、DPR、Dragon 等

结果显示:

  • Retrieval 模型在自动指标(BERTScore/ROUGE-L)上表现突出,尤其在 Related Work 任务中;

  • 长上下文 LLM 在抽象性更高任务(如 Title/Abstract)上性能下滑明显;

  • Few-shot 示例的作用有限,反映出当前模型仍难以有效利用超长 in-context 学习。

同时,作者引入 LLM-as-a-Judge,从生成文本的新颖性、可行性、一致性、事实性、学术风格五个维度重新审视模型输出,并揭示了一个重要现象。

自动指标侧重文本或语义的“重叠”,而 LLM-Judge 更重整体的“质量”与“逻辑连贯”,但两大类评估指标都揭示了 LLM 在利用长文本方面存在明显瓶颈。作者通过实验分析还发现了以下几个现象:

当前 LLM 在长上下文生成中普遍出现 Performance Plateau:当输入超过一定 Token 数量后,效果几乎不再提升。

作者通过额外的分析实验证明,这种停滞主要源于 In-Context Learning 的限制(即模型本身的长上下文推理能力瓶颈),而非模型参数化记忆的 In-Weight Memorization(即数据泄露导致性能饱和)。

总体而言,AcademicEval 提供了一个可靠的评估基准:它不仅揭示了当前 LLM 在长文本推理上的局限,更提供了一种可持续、低维护成本的 benchmark 构建新思路

总结:迈向 Live Evaluation 时代

本文提出的 AcademicEval 不仅展示了如何以低成本、可持续的方式构建 LLM 评测体系,更在方法论上提出了“让数据集成为动态系统”的新视角。

通过周期性更新的 Co-author Graph、自动生成的高质量标签与灵活的上下文长度控制,AcademicEval 让评测不再停留在静态,而是走向持续演化(Live Evaluation)的未来。

未来,这一理念有望被推广至更多开放场景:从多模态推理、图文生成到实时对话代理,评测集都可以像模型一样不断成长、自我更新。

这样的循环将使研究社区从“评测模型”迈向“共演化的模型与评测体系”,真正实现 Benchmark 与 Intelligence 的双向 Co-evolution

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

阅读原文

跳转微信打开

联系我们