动态列表

  • 全球30名顶尖数学家秘密集会围剿AI,当场破防!惊呼已接近数学天才
  • CS专业爆冷,失业率飙至全美第七!毕业生狂卷4年,投1000份简历换0 offer
  • 全球圈粉6000万,被国内粉丝催着上线,PixVerse「国内版」一手实测来了!
  • 没想到,最Open的开源新模型,来自小红书
  • 扩散语言模型扛把子LLaDA迎来新版本,数学、代码、对齐能力均提升
  • ACL 2025 | 大语言模型正在偷改你的代码?
  • 小红书Hi Lab联合西安交大提出 DeepEyes,探索 O3「Thinking with Images」能力
  • 王自如解释投身 AI:确实来钱快;雷军:给1万车主免费培训智驾;身家缩水股价暴跌,马斯克向美总统低头|极客早知道
  • 图灵巨擘RL教父齐聚,机器人秀拳脚嗨翻全场!「悟界」首发引爆物理AGI
  • AI辩论能力碾压人类,81.7%概率让你信服!研究登Nature子刊
  • OceanBase发布AI生态进展:首批接入60余家AI生态伙伴,支持MCP协议
  • 刚刚,智源全新「悟界」系列大模型炸场!AI第一次真正「看见」宏观-微观双宇宙
  • 类R1训练不再只看结果对错!港中文推出SophiaVL-R1模型
  • 不愁了!开源智能体Paper2Poster「一键生成」学术海报
  • 字节Seed新作:模型合并如何改变大模型预训练范式
  • 星尘智能与深圳市养老护理院达成深度战略合作 加速提升具身机器人在养老领域布局
  • MoE推理「王炸」组合:昇腾×盘古让推理性能狂飙6-8倍
  • 马斯克特朗普四天撕破脸,特斯拉血亏 1 万亿
  • 免费约饭!美国CVPR 2025,相聚机器之心人才晚宴
  • 深夜突袭!谷歌Gemini 2.5 Pro更新蝉联榜一:推理超越o3,编程超越opus4
  • 错误率下降44.66%,给AI神经元装上三个突触,灵活的生物启发模块来了
  • 「AI+生物学」如何保证安全?Evo2等DNA基础模型生成「致病生物」怎么办?
  • 近千篇文献淬炼!哈工大领衔发布首篇长思维链综述:重构大模型推理能力边界
  • ICML 2025 | 北大团队提出GAPrompt:仅用2%参数,点云模型精度媲美全量微调
  • 告别O(n²)!上海AI Lab开源Linear-MoE:线性注意力+MoE的终极缝合术
  • 北京/上海/深圳内推 | 英伟达解决方案架构师高校科研团队招聘AI4Science方向实习生
  • 统一架构新思考,北大团队UniWorld-V1统一大模型
  • 马斯克川普互喷,特斯拉暴跌!;小鹏 G7 马上预售,25 万「断代领先」;全球首个「满级 QQ」即将诞生|极客早知道
  • 让GPU不再摸鱼!清华蚂蚁联合开源首个全异步RL,一夜击穿14B SOTA
  • DeepMind揭惊人答案:智能体就是世界模型!跟Ilya 2年前预言竟不谋而合
  • AI摧毁就业?DeepMind CEO:这是一场比互联网更猛的职业洗牌
  • 北大、阿里等提出VLM-R³: 区域识别、推理与优化 — 增强多模态思维链的视觉交互新范式
  • 刚刚,新一届ACM博士论文奖正式公布
  • 10行代码,AIME24/25提高15%!揭秘大模型强化学习熵机制
  • Anthropic「切断」Windsurf,AI Coding 成 AI 巨头「代理人之战」
  • 真实联网搜索Agent,7B媲美满血R1,华为盘古DeepDiver给出开域信息获取新解法
  • 重磅!2025智源大会完整日程公布——全球AI先锋全阵容集结
  • ICML 2025|趣丸研发新型人脸动画技术,声音+指令精准控制表情
  • 强得离谱!CNN顶流回归,真·杀疯了
  • 让AI也会“权衡利弊”?DecisionFlow让大模型更懂高风险决策!
  • SIGIR 2025 | Debug你的AI搜索!NExT-Search双模式反馈让模型学会自我纠错
  • 北京内推 | 京东广告部招聘NLP/大模型算法实习生
  • SAVANA:使用长读长测序对细胞畸变进行精准测量分析
  • MOOSE-Chem3重塑科研范式:AI「动态引导」实验,实现科学发现的飞跃
  • 钉钉更新7.7.0版本,多维表全面免费!
  • OpenAI久违发了篇「正经」论文:线性布局实现高效张量计算
  • ACL 2025 | 基于Token预算感知的大模型高效推理技术
  • ChatGPT 推「AI 转录」整理功能;Manus 推出文生视频功能;小鹏、华为合作今日揭晓
  • 10步优化超越强化学习,仅需1条未标注数据!后训练强势破局
  • 陶哲轩再爆:一个月三破18年未解难题!AlphaEvolve彻底改写数学研究规则
  • 爆火AI编程Windsurf突遭Claude全面断供,开发者大量退订!直接打脸OpenAI
  • AI Pin 们折戟后,第二代 AI 硬件闷声发了大财
  • 开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
  • 看似无害的提问,也能偷走RAG系统的记忆——IKEA:隐蔽高效的数据提取攻击新范式
  • 用 AI 读书、学习,大脑会萎缩吗?
  • 重磅开源!首个全异步强化学习训练系统来了,SOTA推理大模型RL训练提速2.77倍
  • 最新发现!每参数3.6比特,语言模型最多能记住这么多
  • 英伟达揭示RL Scaling魔力!训练步数翻倍=推理能力质变,小模型突破推理极限
  • 文本线索提升视频理解:哈工大、特伦托大学等联合发布多任务视频文本理解评测新基准VidText
  • ICCV 2025| BinEgo‑360:融合全景与双目第一视角的多模态场景理解workshop及挑战赛现已启动
  • ICML 2025 | 认知科学驱动跨域学习!SynEVO仿突触进化机制,泛化性能提升42%
  • 越用越聪明or越学越崩?首个终身学习Agent基准来了,全面评估智能体进化潜能
  • 全注意力一统多模态!快手&港中文提出FullDiT,重构可控视频生成范式
  • 博士申请 | 西湖大学人工智能研究与创新实验室招收2026级推免直博生/硕士生
  • 有效性达95.5%,Deep dreaming方法可逆向设计MOF,探索材料化学空间
  • 登Nature子刊,阿里云&海洋三所用蛋白质语言模型探索深海微生物磷循环
  • 冲击自回归,扩散模型正在改写下一代通用模型范式
  • ICML 立场|像测人类一样测AI:构建能力导向的自适应测评新范式
  • Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
  • 全球仅 6 家!GMI Cloud 跻身 Reference Platform NVIDIA Cloud Partner 行列!
  • OpenAI 曝 GPT-5 即将面试;雷军:YU7 售价肯定高于 23 万;离开格力,王自如变身 AI 博主
  • 真实评估!北理发布全球首个「全场景教育」基准,支持4000+情境
  • Fellou 2.0震撼发布:你的专属贾维斯,开启AI批量化生产新时代
  • GPT-5七月上线?内部爆料+奥特曼疯狂暗示,自曝前方时刻「令人恐惧」
  • 视觉感知驱动的多模态推理,阿里通义提出VRAG,定义下一代检索增强生成
  • 玩完 DeepSeek R1 新版,外国网友又「蚌埠住了」?
  • 经典ReLU回归!重大缺陷「死亡ReLU问题」已被解决
  • 思维链也会「跳帧」?浙大团队提出CoT-Bridge,显著提升数学推理性能
  • 揭秘FG-CLIP:细粒度+难负样本,高质量图文对齐数据集FineHARD开源发布
  • 【征稿&挑战赛】ACM MM 2025 第一届 “软体机器人视觉语言” 研讨会&挑战赛
  • 将量子化学信息注入分子图,卡内基梅隆大学团队提出ML分子表征新方法
  • 集成Evo2与Qwen3,多伦多大学、DeepMind等开发BioReason使AI像生物学家一样推理
  • 过程监督>结果监督!华为港城重构RAG推理训练,5k样本性能反超90k模型
  • ACL 2025 | MMUnlearner解耦视觉-文本知识,多模态大模型遗忘进入细粒度时代
  • 即插即用!SLOT推理时优化算法,几行代码让大模型性能爆表
  • 博后招募 | 北京大学信息技术高等研究院MAII Lab招收机器学习/具身智能博士后
  • 字节跳动 2025 奖学金计划启动!每人 10 万、名额再增加!
  • 万帧?单卡!智源研究院开源轻量级超长视频理解模型Video-XL-2
  • 李斌评蔚来车主高速睡着:辅助驾驶非自动驾驶;苹果WWDC海报曝光;人造肌肉问世,可自我修复|极客早知道
  • AI竟会「自己认错」?破解多智能体协作「罗生门」,斩获ICML 2025 Spotlight
  • AI已学会改自己代码,性能提升100%,还会「改绩效」!程序员,还不慌?
  • AI 逆向设计抗癌药,越想激活 STING,越要先「保护」cGAMP
  • LSTM之父22年前构想将成真?一周内AI「自我进化」论文集中发布,新趋势涌现?
  • 微软等提出「模型链」新范式,与Transformer性能相当,扩展性灵活性更好
  • 姚顺雨提到的「AI下半场」,产品评估仍被误解
  • CVPR 2025 | 解决XR算力瓶颈,FovealSeg框架实现毫秒级IOI分割
  • ICCV 2025 DRL4Real 解耦表征学习与可控生成研讨会,竞赛与征稿已开启
  • 雷军疑似回应余承东:诋毁,也是仰望;京东外卖日单超 2500 万;端午档票房破 2 亿,《碟中谍 8》占一半
  • AI让文科彻底灭绝?算法猜不透人心,人类终将反杀!
  • 陶哲轩重写20年本科经典教材!Lean编程数学证明,GitHub已放出
  • 陶哲轩:感谢Lean,我又重写了20年前经典教材!
  • SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
  • 极低成本,复现GPT-4o图像风格化一致性!NUS推出OmniConsistency
  • CVPR 2025 Highlight | 提升自回归模型样例学习能力,Few-shot图像编辑新范式开源
  • 第六届CSIG图像图形技术挑战赛—红外视频卫星空中动目标检测赛道启动报名
  • CVPR 2025 Highlight l 北大团队开源视觉搜索方法 DyFo,无需训练,提升多模态大模型细粒度理解能力
  • 「平价 Model Y」曝光;OpenAI 死敌年化收入超 30 亿美元;机器人足球联赛月底开战|极客早知道

你永远叫不醒装睡的大模型!多轮对话全军覆没,性能暴跌39%



  新智元报道  

编辑:LRS
【新智元导读】20万次模拟实验,耗资5000美元,证实大模型在多轮对话中的表现明显低于单轮对话!一旦模型的第一轮答案出现偏差,不要试图纠正,而是新开一个对话!

ChatGPT将大模型技术推动到「对话」场景,直接引发了AI技术的爆炸式增长。

用户可以先提出一个粗糙的、不明确的问题,再根据模型的回答逐步完善指令、补充细节,多轮对话也催生出「跟AI打电话」等有趣的应用设计。

不过,现有的大模型性能评估基准仍然是基于单轮对话机制,输入的指令也更长,信息更完善,其在真实场景中多轮对话的性能仍然没有得到很好地评估。

最近,研究人员进行了一场超过20万次的多轮对话模拟实验,对比了15个顶级开源和闭源大模型在单轮和多轮对话场景中的性能差异,结果发现,所有模型在多轮对话中的表现都明显低于单轮对话,平均性能在六种生成任务中下降了39%

论文链接:https://arxiv.org/abs/2505.06120

简单来说,大模型通常在第一次回答问题的时候,就已经定下了基调,过早地尝试生成最终解决方案,并且在后续回答的时候也会依赖这个结论。

性能下降后,大模型的可靠性也显著降低,研究人员将这种现象称之为「对话迷失」,即LLMs在多轮对话中一旦走错了方向,在后续提示中添加信息也无法纠正,也就没办法恢复到正确的问答路径。


分片模拟多轮对话


研究人员将现有的单轮基准测试任务重新设计为多种类型的多轮模拟对话场景,以评估大型语言模型(LLMs)在多轮、不明确对话中的表现。

指令分片


GSM8K数据集中具体的(fully-specified)指令文本很长,包括背景、条件、问题等等。

研究人员将原始指令采用一个「半自动化流程」进行切分,每个分片包含原始指令中的一个元素,分片1是指令的高级意图,模拟用户的第一次输入,后续的分片则对意图细节进行澄清。

所有分片合在一起,可以表达出与原始指令相同的信息,分片必须满足五个要素:信息保留、清晰的原始意图、顺序无关(除第一个分片外,其他分片彼此独立)、最大化分片(尽可能从原始指令中提取信息)、最小化转换(保持原始指令的风格,避免简化)。

模拟分片对话


基于分片指令模拟多轮、不明确对话的过程

对话包括三个角色:

  1. 助手(assistant)是正在被评估的大语言模型

  2. 用户(user, 由另一个LLM模拟)包含整个分片指令,并负责在对话的每一回合中逐步揭示分片内容

  3. 系统(system)负责对助手的回答进行分类和评估

在第一轮对话中,用户模拟器向助手展示指令分片1,助手随后生成文本回答。

系统会将助手的回答归类为七种可能的回应策略之一:澄清、拒绝、回避、询问、讨论、缺失或尝试回答。

如果助手给出了一个明确的、完整的解决方案,就调用「答案提取组件」来确定助手回答中对应答案的部分(例如代码片段或数字),主要是因为大模型通常会在答案中添加额外信息,比如自然语言解释或后续问题,可能会干扰评估结果。

在后续每一轮对话中,用户模拟器最多输入一个分片信息,然后助手的回复类型为「尝试回答」,则进行评估。

如果任务评估器认为助手的答案尝试是正确的,或是分片数据耗尽,则多轮对话模拟结束。

研究人员使用一个低成本的大模型(GPT-4o-mini)来实现用户模拟器,能够访问整个分片指令以及到目前为止的对话状态,并负责对分片数据进行重新措辞,以自然地融入对话中。

除了用户消息外,助手在第一轮对话之前还会收到一个最小化的系统指令,提供完成任务所需的上下文,包括数据库架构或可用API工具列表等。

助手并不知道自己正处于多轮、不明确的对话中,也没有偏好特定的对话策略。

虽然额外的指令可能会改变模型的行为,但研究人员认为这种变化并不现实,因为在实际场景中,用户也不可能会考虑输入这些信息。

策略分类器和答案提取器组件也使用基于提示的GPT-4o-mini实现。

虽然在模拟器中使用基于LLM的组件可以让对话更加动态,从而提供更真实的模拟,但不可避免地会导致模拟错误,可能会影响实验的有效性。

模拟类型

完全指定(fully-specified, Full),模拟单轮对话场景,即原始指令在第一轮就完整地提供给LLM,用于评估模型的基础性能。

分片(sharded),模拟多轮、不明确的对话。

合并(concat)模拟基于分片指令的单轮、完全指定的对话。

所有分片被合并成一个单轮指令,以bullet-point形式呈现(每行一个分片),并在前面加上一条指令,要求LLM综合所有信息来完成任务。

concat模拟是完全指定和分片之间的逻辑中间点,消除了不明确性,但保留了在分片过程中出现的指令重新措辞。

如果一个模型在full和concat模拟中都能成功完成任务,却无法再分片模拟中完成,就可以认为模型表现不佳的原因,不是因为分片过程中的信息丢失问题,而是源于对话的不明确性和多轮性质。

总结(recap)模拟分片对话,并在最后增加了一个总结轮次,将所有分片指令在一轮中重新陈述,给LLM最后一次回答的机会,可以评估「智能体」式干预能否缓解分片对话中性能下降的问题。

滚雪球(snowball)要求模型对每轮对话都进行总结。

在每一轮中,用户模拟器不仅引入一个新的分片,还会重新陈述到目前为止对话中已经输入的所有分片,从而产生「滚雪球」效应,即每轮对话都包含之前所有轮次的信息,再加上一个新的分片,可以评估每轮对话中的「提醒」是否有助于缓解LLM在多轮对话中的失忆问题。


实验结果


研究人员使用了600条指令,针对三种主要模拟类型(full, concat, shared),从八个模型家族中选择了总共15种LLMs()进行了实验,每种模型与每种模拟类型的组合都运行10次模拟,总共进行了超过20万次模拟对话,总成本约为5000美元。

从总体上看,每个模型在进行「完全指定」和「分片对话」时,在每项任务中的表现都有所下降,平均下降幅度为39%

研究人员将这种现象称为「对话迷失」,即在完全指定、单轮对话的实验室环境中表现出色(90%以上)的模型,在更接近现实的场景(对话不明确且为多轮)中,相同任务上表现不佳。

相比之下,在合并cocnat设置中,模型的表现大致相当,其平均表现达到了完全指定表现的95.1%,也就意味着分片对话中表现下降的原因并不是由于分片指令可能导致的信息丢失,否则合并对话的表现也会相应降低。

还可以观察到,较小的模型(如Llama3.1-8B-Instruct、OLMo-2-13B、Claude 3 Haiku)在合并对话中的表现下降更为明显(86%-92%),表明较小的模型在泛化能力上不如较大的模型,即使是重新措辞也会对模型性能产生较大影响。

此外,增加测试时的计算量(推理token)并不能帮助模型应对多轮不明确对话。

实验中的两个推理模型(o3和Deepseek-R1)性能下降与非推理模型类似,也证实了仅靠增加测试时的计算量并不能让模型在多轮对话中制定策略。

推理模型倾向于生成更长的回答(平均比非推理LLMs长33%),同时会混淆模型认知,使其分不清用户提出的要求和自己在上一轮对话中的思考。

参考资料:
https://arxiv.org/abs/2505.06120

图片


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652599608&amp;idx=3&amp;sn=2175851497e4a953d2af982dbc78eab3&amp;chksm=f059fb913ff519a8b24850f460b6a8c837aeea95a1c36460cf85051ae16d15ef961b10e7055a&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/83671/5ylOYKHfS7&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们