动态列表

  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道
  • 吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
  • 打开高德的理由又多一条!全球首个「需求链智能调度」AI地图上线
  • 核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相!
  • 一句话搞定多任务出行,高德用空间智能重新定义地图
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
  • 谷歌开源Gemma 3 270M,性能超越Qwen 2.5同级模型
  • 追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
  • Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
  • 多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
  • Science封面:高效精准模拟构象变化,微软研究院用生成式AI重塑蛋白质功能研究
  • 扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
  • AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
  • LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
  • xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情
  • 链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
  • 李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍
  • ChatGPT会让大脑退化?OpenAI高管用它救下自己「读写障碍」的女儿
  • 谷歌超级编码智能体正式上岗!125刀大会员,每天300任务任意跑
  • Meta华人天才毕树超「叛逃」预言:OpenAI未竟交互革命,暗藏万亿赛道
  • 美国CS就业梦碎!狂投5000家0 Offer,名校毕业00后被麦当劳惨拒
  • 3 分钟,我学会了像鸟儿一样飞行 | New Things
  • 从隐私计算迈向六大数据流通全栈技术,“隐语”开源社区升级
  • 7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本
  • 小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!
  • 对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」
  • 告别「偏科生」时代!36 万的坦克500,让对手从此无路可走
  • 万字长谈王小川:不再迎合他人做学霸,我要解自己的命题
  • 刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
  • ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘
  • 复旦&微软提出StableAvatar: 首个端到端“无限时长”音频驱动的人类视频生成新框架!
  • 千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
  • 冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
  • ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
  • 苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
  • GNN+KAN,把三角函数当「激活」选项,山大、南洋理工让分子图更会读化学子结构
  • 港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
  • 破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
  • AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道
  • 奥特曼公然叫板马斯克!重金杀入脑机接口,硅谷两大巨头彻底决裂
  • AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
  • 马斯克删除xAI「研究员」职位引爆网络!LeCun怒批:如此暴力将扼杀创新
  • OpenAI女CEO太狠了!智商148,GPT-5才是真印钞机
  • AI 和海外游戏发力,腾讯重回 7000 亿美金
  • 博士申请 | 休斯敦大学计算机系刘锦阳老师招收高性能计算/数据压缩方向博士生
  • ICML 2025 | 奖励模型还用人标?APEC用对抗模仿生成偏好,泛化能力直线上升
  • Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?
  • 告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
  • AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」
  • Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
  • AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
  • 研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
  • 多模态大脑建模技术迈入新纪元:Meta 10亿参数模型获Algonauts 2025大脑建模竞赛冠军
  • 当人们怀念 GPT-4o,他们在「怀念」什么?
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
  • 耶鲁&大连理工&南洋理工等提出MDCNeXt:X射线下的“动力电池缺陷精准检测”新范式
  • IEEE TPAMI 南洋理工&哈工大提出 MARCONet++ 攻克中文文本图像超分难题
  • 6秒造一个「视频博主」,Pika让一切图片开口说话
  • 破解AI创企的「不可能三角」,解药不止「大模型」
  • OpenAI和奥特曼将投资一家脑机接口公司,直接与马斯克的Neuralink竞争
  • 大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
  • 传 DeepSeek-R2 8 月发布;微信测试信用借款功能;Perplexity 要 345 亿美元收购 Chrome
  • 一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
  • AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
  • 物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
  • 刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开
  • 让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
  • 从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
  • 破解效率与成本难题:华为UCM技术推动AI推理体验升级
  • SIGGRAPH上,英伟达发布物理AI开源新技术,更新RTX Pro产品线
  • 身家25亿刀,是四家公司创始人,这位伯克利教授还在给本科生上课
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
  • 实验室抢显卡抢破头?A800/H800骨折价来袭,超值返券助你轻松冲DDL!
  • 北京内推 | 度小满金融视觉和多模态团队招聘视觉多模态算法实习生
  • 后训练轻量「小枝」强势出击!极限剪裁视觉token,推理加速154%
  • ICCV 2025 | LightSwitch:CMU提出材质引导的扩散模型,2分钟实现高质量三维场景重打光
  • TCSVT 2025 | 跨模态学习助力复杂工业过程异常检测:FmFormer框架与基准测试新突破
  • AI全面挖掘微蛋白价值:首次引入合成负样本训练,剔除92%噪声,摆脱保守依赖
  • 是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
  • 东方理工·甬江论坛|新大学、新使命,邀你共启未来
  • LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
  • ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
  • 聚焦前沿,见证未来!「X·创新』产品SHOW圆满举办!
  • 刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
  • Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
  • 雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元
  • OpenAI开源霸权5天终结,百川M2一战夺冠!实测比GPT更懂中国医疗
  • 硅谷精英放弃生娃!MIT女记者揭秘:人类只是AI垫脚石,世界很快就毁灭
  • 41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
  • 2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
  • 昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周
  • 世界机器人大会:笨拙的今天,与狂奔的明天
  • 「一只手有几根手指」,你的GPT-5答对了吗?
  • 4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
  • 智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
  • 从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
  • ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
  • 脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
  • 第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
  • 机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
  • Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
  • 具身智能技术与应用论坛圆满举行,北京人形公布多项创新成果
  • ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法,让LLM学会解读蛋白质网络
  • 宇树、银河通用都在用:英伟达「物理AI」技术亮相世界机器人大会
  • CVPR 2025 | DPC:用于微调视觉-语言模型的双提示协作
  • ICCV 2025 | 终结灾难性遗忘!南大提出外部知识注入机制,刷新CLIP持续学习SOTA
  • 超越样本级RL!人大×快手提出ARPO:熵驱动Agent探索,多轮推理性能飙升
  • 北京/上海内推 | 盛大集团AI创新中心招聘大模型/Agent方向算法实习生
  • 毒液抗菌搭配深度学习,千万级数据组中筛得386条备选,91.4%体外验证成功

Attention Sink的起源找到了?清华×美团首次锁定MoE中的「超级专家」

让你更懂AI的 2025-08-13 23:36 河北

大模型激活异常之谜破解

稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。

然而,随着模型参数的迅速膨胀,如何高效部署和推理成了新的挑战。为此,学术界和工业界纷纷聚焦于模型压缩技术,尤其是面向 MoE 模型的 “专家级压缩”。研究者们通过剪枝、量化、合并等方法,剔除或简化那些 “非关键” 专家,从而在保证性能的同时,显著减小模型体积。

分析专家的重要性差异不仅有助于推动更高效的模型压缩,还为深入理解 MoE LLM 的内部行为机制提供了关键视角。然而,现有方法多依赖经验性准则来识别重要专家,缺乏对专家重要性深度的探讨。因此,本研究聚焦于一个此前被忽视的重要问题:

MoE LLM 中是否普遍存在一类在前向推理过程中发挥关键重要作用的专家子集

通过对多个主流开源 MoE LLM(包括 DeepSeek 系列、Qwen3 系列、Mixtral 等)进行深入实证分析,来自清华大学和美团的研究人员首次发现并确认了这一特殊且至关重要的专家子集的广泛存在。尽管这些专家数量极为有限,但它们对模型性能的影响却举足轻重。

例如,在 Qwen3-30B-A3B 模型中,仅裁剪 3 个专家(从约 6000 个专家中)就足以显著降低模型性能,而随机裁剪其他专家影响较小(如 图 1 所示)。


▲ 图1. 对 Qwen3-30B-A3B 模型进行专家裁剪分析。裁剪三个超级专家将导致模型困惑度(PPL)显著退化。而随机裁剪上百个非超级专家的影响较小。

研究人员将这些专家命名为超级专家(Super Experts),并从以下三个方面进行了逐渐深入的系统分析:

1) 在不同模型和输入数据领域中的分布规律;

2) 对非推理与推理模型能力的重要性;

3) 深入分析及理解压缩超级专家对注意力机制的影响。

此外,作者还开发了一套自动化工具,能够快速且精准地识别新模型中的超级专家。


论文链接:

https://arxiv.org/abs/2507.23279

代码链接:

https://github.com/ZunhaiSu/Super-Experts-Profilling


    图片

    超级专家:发现及定位

    研究以 Qwen 最新的混合专家大语言模型 Qwen3-30B-A3B 为例,展示了发现超级专家的过程。随后,通过对不同模型和输入数据领域的分析,深入探讨了超级专家的分布特征,并进一步揭示了其在多个模型中的广泛存在。

    超级专家的概念源于对密集结构大型语言模型中一个现象 —— 大值激活(Massive Activations)—— 的深入研究。

    大值激活指的是在大模型的解码器层之间传递的隐藏状态(hidden states)中,出现极端的激活离群点,其数值远远超出普通激活值,可能大上万倍。研究人员首先在多个开源 MoE LLM 中验证了这一现象的普遍性。

    然而,研究并未止步于此,而是进一步提出了以下关键问题:

    在 MoE LLM 中,这类大值激活是如何产生的?是所有激活的专家协同作用的结果,还是由少数关键专家主导?

    通过对模型内部数据流的细致观察,研究得出了一个重要发现:这些大值激活现象是由极少数特定专家所诱导的。这些专家在其 down_proj 层的输出中,会产生罕见且极端的激活离群值。

    这些离群值通过残差连接累加到下一层的输入中,通过一次或多次放大,最终导致大值激活现象的出现。作者将这些诱导大值激活现象的专家称为超级专家(Super Experts)。图 2 以 Qwen3-30B-A3B 模型为例,生动地展示了这一机制。


    图2. 第 1 层的第 68 号专家、第 2 层的第 92 号专家,以及第 3 层的第 82 号专家,共同构成了一条 “激活放大链”。第 1 层的超级专家首先产生初始激活峰值,该峰值在传递至第 2 层后,被对应层的超级专家进一步放大,并持续向后层传播。最终在模型后续层中形成了稳定且大幅的激活值。

    为了直接验证这一机制,作者还进行了逐层超级专家裁剪的消融实验。如图 3 所示,当裁剪某一层的超级专家时,该层对大值激活的影响将直接消失;当裁剪所有超级专家时,原本显著的大值激活现象也随之完全消失。这无可辩驳地证明了,超级专家正是模型中大值激活的直接源头


    ▲ 图3. Qwen3-30B-A3B超级专家裁剪消融实验

    在验证了超级专家的存在后,作者接下来讨论如何精准且自动地识别他们。基于超级专家影响大值激活产生的特性,研究提出了简洁且有效的量化定义方法。

    首先统计所有专家在各层 down_proj 输出的最大激活幅值。设 L 为形成大值激活的层集,ale 表示第 l 层中专家 e 在 down_proj 输出的最大激活幅值,且 A = {ale} 为模型中所有此类值的集合。

    若专家 e 在第 l 层满足以下条件,则将其分类为超级专家:


    其中,,且

    基于该定义,作者开发了一种自动化分析工具,并对多个 MoE LLM 进行了验证。结果表明,该工具效果显著(如 图 4 和 图 5 所示)。


    图4. 对多个 MoE LLM 的超级专家识别,加粗的为超级专家的 down_proj 输出激活幅值。

    图5. 对多个 MoE LLM 的所有专家的 down_proj 输出激活幅值热力图,其中箭头所指清晰地标注了超级专家。

    基于提出的自动化校准工具,作者对多个 MoE LLM 和不同输入数据集领域进行了超级专家的定位,得出了以下关键结论:

    • 超级专家普遍存在且数量稀少在所有检查的模型中都发现了超级专家(图 5),数量占比通常远小于 0.05%。例如在 Qwen3-30B-A3B 中,6144 个专家中仅有 3 个超级专家。


    • 超级专家分布稳定且不受后训练影响研究对比了多个模型的 Base 版本与后训练版本(如 Qwen3-30B-A3B-Base 与 Qwen3-30B-A3B),发现超级专家的分布完全一致。这意味着超级专家的形成于模型预训练阶段且在后续过程持续稳定。


    • 超级专家分布跨数据领域一致研究还在多种不同类型的数据集(如中文文本 C-Eval、代码 HumanEval、数学 GSM8K)上进行了测试,发现超级专家的分布表现出惊人的稳定性(图 6)。


    图6. 对多个输入数据集领域的超级专家分析


    图片

    超级专家重要性分析

    在发现并定位超级专家之后,研究继续从非推理模型和推理模型两个维度,研究了裁剪超级专家带来的严重后果,揭示了它们的极端重要性。

    对非推理模型,作者选取了 Qwen3-30B-A3B(非思考模式)、DeepSeek-V2-Lite 和 Mixtral-8x7B-v0.1 模型,在包括 ARC、BoolQ、HellaSwag、MMLU 在内的多个测试任务上进行了评估。

    实验设置了三个对照组:原始模型、裁剪超级专家的模型、以及随机裁剪同等数量非超级专家的模型。


    图7. 对非推理模型的超级专家重要性测试

    对非推理模型的实验结果如图 7 所示,可以发现裁剪超级专家后:

    • 性能显著下降:模型的平均准确率出现了 21.68% 到 27.21% 的下跌。


    • 数学任务上接近崩溃:在 GSM8K 这类需要一定逻辑推理的任务上,性能下降尤为严重,出现了 52.71% 到 74.51% 的巨幅下跌。


    • 随机裁剪影响甚微:随机裁剪同等数量的其他专家,对模型性能的影响几乎可以忽略不计。

    如果说裁剪超级专家对非推理任务的影响是“重创”,那么对需要复杂逻辑和数学推理的任务而言,其影响则是“毁灭性”的。

    研究者选取了 DeepSeek-R1 和 Qwen3-30B-A3B(思考模式),在 GPQA-Diamond、MATH-500、AIME 等高难度推理任务上进行了测试。

    对推理模型的实验结果如图 8 和图 9 所示,令人震惊,裁剪仅仅几个超级专家后:

    • 推理能力完全丧失在 DeepSeek-R1 和 Qwen3-30B-A3B 上一致地显示,裁剪超级专家后,对推理任务造成了重创,在 AIME 2024,AIME 2025,LiveCodeBench 等测试上,模型的 Pass@1(一次通过率)直接降为 0.00%。


    • 模型思维链短路如图 10 所示,在对 Math-500 的测试输出进行分析时,观察到了一个非常奇特的现象。原始模型以及随机裁剪的模型能够条理清晰地分析问题,而裁剪了超级专家的模型的回答会陷入无意义的、机械的重复,直到达到最大输出长度。


    图8. 对DeepSeek-R1的超级专家重要性测试

    图9. 对Qwen3-30B-A3B(思考模式)的超级专家重要性测试

    图10. DeepSeek-R1在Math-500上的输出结果展示


    图片

    理解压缩超级专家对注意力机制的影响

    为什么裁剪超级专家会产生如此灾难性的后果?研究在本节进一步探究和理解其背后的深层机理,将超级专家与另一个大模型中的重要现象 —— 注意力汇聚区(attention sinks)—— 联系了起来。

    在基于多头自注意力的大型语言模型中,某些特殊的 token(通常是序列的初始 token)会吸引大量的注意力分数。

    先前的研究表明,尽管注意力汇聚的 token 通常语义较弱,但它们的存在对于维持注意力分数的分布至关重要,许多高效模型方法例如稀疏注意力、KV cache 压缩技术都非常重视保留注意力汇聚区。

    基于大值激活会引起注意力汇聚区的形成的现有研究,结合本文的研究发现超级专家会引发大值激活的现象。作者提出了以下 MoE LLM 内部机制因果链假设:

    超级专家 Super Experts(根源) → 大值激活 Massive Activations(现象) → 注意力汇聚区 Attention Sinks(功能)


    图11. 原始模型的注意力分数图,其中第一个token明显形成了注意力汇聚区

    图12. 裁剪超级专家后的对应注意力头的注意力分数图,明显可以看到注意力汇聚区的缺失

    为了验证上述假设,研究设计了一个名为“注意力汇聚区衰减率”(Attention Sink Decay Rate)的量化指标,用于衡量裁剪超级专家对注意力机制的破坏程度。

    如图 13 所示,在裁剪超级专家后,模型所有层的注意力汇聚区衰减率都稳定在 90% 左右,甚至接近 100%。这表明超级专家的压缩,严重地破坏了模型内部至关重要的注意力机制,验证了上述提出的机制因果链。

    图 11 以及图 12 对裁剪前后注意力分数图进行的可视化分析,清晰地验证了注意力汇聚的破坏性影响。


    图13. Qwen3-30-A3B注意力汇聚区衰减率分析


    图片

    结语

    本研究揭示了广泛存在于 MoE LLM 中的超级专家机制,并通过分析超级专家的分布规律、其对模型能力的重要性以及在注意力机制中的关键作用,进行了系统性探讨。

    该研究的四大核心贡献是:

    1. 首次识别并系统性地分析了超级专家这一前所未见的重要机制。在多个主流 MoE LLM 中广泛验证了超级专家的存在,并揭示超级专家分布的显著稳定性。此外,本文还构建了自动化检测工具,可高效识别新模型中的超级专家。

    2. 实证验证超级专家的关键作用。大量实验显示,超级专家对模型整体能力,尤其是数学推理任务至关重要。对于如 AIME、Math-500 等测试集,裁剪超级专家后模型表现近乎 “完全崩溃”,测试表现几乎降至 0。

    3. 揭示压缩超级专家对注意力机制的影响。研究证实 MoE LLM 依赖超级专家形成注意力 “汇聚区”,该机制对于注意力分数的合理分布至关重要,而一旦超级专家被裁剪,该机制将遭受严重破坏,进而显著削弱模型性能。

    4. 为 MoE LLM 的压缩策略提供新方向超级专家的发现不仅扩展了对 MoE LLM 内部行为的理解,也为未来设计更加稳健的面向 MoE LLM 压缩方案提供了理论依据。

    未来的研究将聚焦于探索超级专家在模型预训练过程中的形成机制,并利用超级专家开发更为高效的 MoE LLM 压缩方法。

    更多阅读

    #投 稿 通 道#

    让你的文字被更多人看到


    如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

    总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

    PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

    📝 稿件基本要求:

    • 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

    • 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

    • PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

    📬 投稿通道:

    • 投稿邮箱:hr@paperweekly.site

    • 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

    • 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


    △长按添加PaperWeekly小编


    🔍

    现在,在「知乎」也能找到我们了

    进入知乎首页搜索「PaperWeekly」

    点击「关注」订阅我们的专栏吧


    ·

    阅读原文

    跳转微信打开

    联系我们