动态列表

  • 刚刚!谷歌内部揭秘Genie 3:Sora后最强AI爆款,开启世界模型新时代
  • 黄仁勋子女逆袭上位!4万亿「皇储」成长史首曝:一个学烘培,一个开酒吧
  • GPT-5首次会推理,OpenAI联创曝AGI秘诀!超临界学习吞噬算力,2045金钱无用?
  • 400万人围观的分层推理模型,「分层架构」竟不起作用?性能提升另有隐情?
  • CoRL 2025|隐空间扩散世界模型LaDi-WM大幅提升机器人操作策略的成功率和跨场景泛化能力
  • SEAgent:开启从实战经验中自我进化的GUI智能体新纪元
  • OpenAI估值达5000亿美元;「原道」联手小岛秀夫,推《死亡搁浅》耳机;苹果手表将「大幅重新设计」
  • 奥特曼神秘晚宴讲话曝出!OpenAI的CEO或将是个AI,Chrome我也想买
  • 谷歌最新「0.27B」Gemma 3开源!身板小却猛如虎,开发者直呼救命稻草
  • 最惨就业季!CS学霸GPA 3.98,投2500份简历仅10次面试,AI吞噬入门级岗位
  • Yann LeCun最新纪录片首曝!传奇AI教父的双面人生,深度学习幕后40年
  • 大模型如何推理?斯坦福CS25重要一课,DeepMind首席科学家主讲
  • 当AI比我们更聪明:李飞飞和Hinton给出截然相反的生存指南
  • 简单即强大:全新生成模型「离散分布网络DDN」是如何做到原理简单,性质独特?
  • Sam Altman:AI存在泡沫;宇树机器人夺金,王兴兴:用遥控追求极致速度;蔡浩宇AI游戏上架,27.19元|极客早知道
  • 吞下17亿图片,Meta最强巨兽DINOv3开源!重新定义CV天花板
  • 打开高德的理由又多一条!全球首个「需求链智能调度」AI地图上线
  • 核心模型被曝蒸馏DeepSeek?前女友一纸控诉,曝出欧版OpenAI塌房真相!
  • 一句话搞定多任务出行,高德用空间智能重新定义地图
  • GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了
  • 谷歌开源Gemma 3 270M,性能超越Qwen 2.5同级模型
  • 追剧不断网,可能背后有个AI在加班,故障诊断准度破91.79%
  • Meta视觉基座DINOv3王者归来:自监督首次全面超越弱监督,商用开源
  • 多突触神经元模型问世,国内团队打造类脑计算新引擎,登上《自然·通讯》
  • Science封面:高效精准模拟构象变化,微软研究院用生成式AI重塑蛋白质功能研究
  • 扎克伯格看OpenAI直播挖人,北大校友孙之清加入Meta
  • AI 模特时代到来:字节x清华推出商用级视频换装模型DreamVVT,保真度显著领先SOTA
  • LeetCode刷够100小时,学会找人内推,OpenAI员工下场教你拿Offer
  • xAI元老离职干风投,传奇人物Babuschkin长文追忆与马斯克创业战友情
  • 链式思维是幻象吗?从数据分布视角重新审视大模型推理,马斯克回复,Grok破防
  • 李想:i8 反响不错,产品力没对手;库克暗示:苹果将推桌面机器人;中国日均消耗 30 万亿 Token,暴涨 300 倍
  • ChatGPT会让大脑退化?OpenAI高管用它救下自己「读写障碍」的女儿
  • 谷歌超级编码智能体正式上岗!125刀大会员,每天300任务任意跑
  • Meta华人天才毕树超「叛逃」预言:OpenAI未竟交互革命,暗藏万亿赛道
  • 美国CS就业梦碎!狂投5000家0 Offer,名校毕业00后被麦当劳惨拒
  • 3 分钟,我学会了像鸟儿一样飞行 | New Things
  • 从隐私计算迈向六大数据流通全栈技术,“隐语”开源社区升级
  • 7天,一场风暴!理想 i8「刮骨疗毒」,怒砍两个版本
  • 小订过万!打死不说价格的全新小鹏 P7,用颜值吊起了所有人的胃口!
  • 对话理想智驾负责人:撕掉「奶爸车」标签,智驶是理想的「新引擎」
  • 告别「偏科生」时代!36 万的坦克500,让对手从此无路可走
  • 万字长谈王小川:不再迎合他人做学霸,我要解自己的命题
  • 刚刚,全网最懂图文调研的智能体模型震撼上线,看完我直接卸了浏览器
  • ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘
  • 复旦&微软提出StableAvatar: 首个端到端“无限时长”音频驱动的人类视频生成新框架!
  • 千支队伍争锋!首届「启智杯」算法大赛圆满落幕,助推AI应用落地
  • 冗长响应缩减80%,DeepSeek GRPO获得颠覆性改进,微软GFPO问世
  • ICCV 2025 | HERMES:首个统一3D场景理解与生成的世界模型
  • 苹果 AI 下半场:年底问世的新 Siri,要彻底改变 iPhone 的交互
  • GNN+KAN,把三角函数当「激活」选项,山大、南洋理工让分子图更会读化学子结构
  • 港大联手月之暗面等开源OpenCUA:人人可造专属电脑智能体
  • 破解「长程智能体」RL训练难题,腾讯提出RLVMR框架,让7B模型「思考」比肩GPT-4o
  • AI独角兽498家,估值2.7万亿美元;《王者荣耀》连续三年成全球最吸金手游;抖音测试「快递」服务|极客早知道
  • 奥特曼公然叫板马斯克!重金杀入脑机接口,硅谷两大巨头彻底决裂
  • AI女友24h陪玩,全球800万人上头!这群AI创企靠百度开挂
  • 马斯克删除xAI「研究员」职位引爆网络!LeCun怒批:如此暴力将扼杀创新
  • OpenAI女CEO太狠了!智商148,GPT-5才是真印钞机
  • AI 和海外游戏发力,腾讯重回 7000 亿美金
  • 博士申请 | 休斯敦大学计算机系刘锦阳老师招收高性能计算/数据压缩方向博士生
  • Kimi K2背后的冷门绝招:海量语料“重写”如何榨干每个token?
  • ICML 2025 | 奖励模型还用人标?APEC用对抗模仿生成偏好,泛化能力直线上升
  • Attention Sink的起源找到了?清华×美团首次锁定MoE中的「超级专家」
  • 告别Transformer,重塑机器学习范式:上海交大首个「类人脑」大模型诞生
  • AI 上新|在 Edge 浏览器里,我第一次感受到了 AI 的「人味」
  • Agent狂欢下的冷思考:为什么说Data&AI数据基础设施,才是AI时代Infra新范式
  • AI顶会模式出了问题? 「不发表,就出局」的恶性循环,正在压垮整个AI学界
  • 研究者警告:强化学习暗藏「策略悬崖」危机,AI对齐的根本性挑战浮现
  • 多模态大脑建模技术迈入新纪元:Meta 10亿参数模型获Algonauts 2025大脑建模竞赛冠军
  • OpenAI没开源的gpt-oss基础模型,他去掉强化学习逆转出来了
  • 当人们怀念 GPT-4o,他们在「怀念」什么?
  • IEEE TPAMI 南洋理工&哈工大提出 MARCONet++ 攻克中文文本图像超分难题
  • 耶鲁&大连理工&南洋理工等提出MDCNeXt:X射线下的“动力电池缺陷精准检测”新范式
  • 6秒造一个「视频博主」,Pika让一切图片开口说话
  • 破解AI创企的「不可能三角」,解药不止「大模型」
  • OpenAI和奥特曼将投资一家脑机接口公司,直接与马斯克的Neuralink竞争
  • 大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
  • 传 DeepSeek-R2 8 月发布;微信测试信用借款功能;Perplexity 要 345 亿美元收购 Chrome
  • 一觉醒来,GitHub没了?CEO辞职,微软接管,开发者天塌了
  • AI全国榜单爆冷,全网吃瓜大狂欢!这家黑马竟靠DeepSeek杀进全国TOP 2
  • 物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
  • 刚刚,商汤内部两万字复盘曝光:多模态通往AGI核心路线首次公开
  • 让强化学习快如闪电:FlashRL一条命令实现极速Rollout,已全部开源
  • 从物竞天择到智能进化,首篇自进化智能体综述的ASI之路
  • 破解效率与成本难题:华为UCM技术推动AI推理体验升级
  • SIGGRAPH上,英伟达发布物理AI开源新技术,更新RTX Pro产品线
  • 身家25亿刀,是四家公司创始人,这位伯克利教授还在给本科生上课
  • 商汤王晓刚:世界模型将加快AI从数字空间进入物理世界,「悟能」想做那个桥梁
  • 北京内推 | 度小满金融视觉和多模态团队招聘视觉多模态算法实习生
  • 实验室抢显卡抢破头?A800/H800骨折价来袭,超值返券助你轻松冲DDL!
  • 后训练轻量「小枝」强势出击!极限剪裁视觉token,推理加速154%
  • ICCV 2025 | LightSwitch:CMU提出材质引导的扩散模型,2分钟实现高质量三维场景重打光
  • TCSVT 2025 | 跨模态学习助力复杂工业过程异常检测:FmFormer框架与基准测试新突破
  • AI全面挖掘微蛋白价值:首次引入合成负样本训练,剔除92%噪声,摆脱保守依赖
  • 是「福尔摩斯」,也是「列文虎克」,智谱把OpenAI藏着掖着的视觉推理能力开源了
  • 东方理工·甬江论坛|新大学、新使命,邀你共启未来
  • LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
  • ICCV 2025 | 小红书AIGC团队提出图像和视频换脸新算法DynamicFace
  • 聚焦前沿,见证未来!「X·创新』产品SHOW圆满举办!
  • 刚刚,OpenAI拿下IOI金牌,仅次于前五名人类选手!参赛推理模型才夺得IMO金牌
  • Lumina-mGPT 2.0:自回归模型华丽复兴,媲美顶尖扩散模型
  • 雷军:小米YU7改名,被误会是丐版;传淘宝闪购周末峰值超美团;低价 MacBook 或年底亮相,599 美元
  • OpenAI开源霸权5天终结,百川M2一战夺冠!实测比GPT更懂中国医疗
  • 硅谷精英放弃生娃!MIT女记者揭秘:人类只是AI垫脚石,世界很快就毁灭
  • 41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
  • 2025全球大模型应用报告:红海混战「忠诚度」瓦解,用户脚踏4.7条船!
  • 昆仑万维发布新模型 SkyReels-A3,开启五天技术发布周
  • 世界机器人大会:笨拙的今天,与狂奔的明天
  • 「一只手有几根手指」,你的GPT-5答对了吗?
  • 4D空间智能:AI如何一步步「看懂」时空结构?一篇综述解析通往四维世界的五大层次
  • 智谱终于发布GLM-4.5技术报告,从预训练到后训练,细节大公开
  • 从捍卫者到引路人,上交&上海AI Lab提出LEGION:不仅是AI图像伪造克星,还能反哺生成模型进化?
  • ICCV 2025 | 机器人自主探索未知复杂空间?GLEAM破解主动探索建图的泛化难题
  • 脑子比不过AI,手也要沦陷了?这只灵巧手看得我有点慌
  • 第二届 “兴智杯” 全国人工智能创新应用大赛专题活动明天开启,技术解析 + 资源对接一站式平台重磅来袭!
  • 机器人上下文协议首次开源:阿里达摩院一口气放出具身智能「三大件」
  • Attention Sink产生的起点?清华&美团首次揭秘MoE LLM中的超级专家机制
  • 具身智能技术与应用论坛圆满举行,北京人形公布多项创新成果
  • ACL 2025 | 湖南大学、腾讯生命科学实验室等提出蛋白互作预测新方法,让LLM学会解读蛋白质网络
  • 宇树、银河通用都在用:英伟达「物理AI」技术亮相世界机器人大会
  • CVPR 2025 | DPC:用于微调视觉-语言模型的双提示协作
  • ICCV 2025 | 终结灾难性遗忘!南大提出外部知识注入机制,刷新CLIP持续学习SOTA
  • 超越样本级RL!人大×快手提出ARPO:熵驱动Agent探索,多轮推理性能飙升
  • 北京/上海内推 | 盛大集团AI创新中心招聘大模型/Agent方向算法实习生
  • 毒液抗菌搭配深度学习,千万级数据组中筛得386条备选,91.4%体外验证成功

硬核拆解!从GPT-2到gpt-oss,揭秘大模型进化关键密码



  新智元报道  

编辑:元宇 英智
【新智元导读】自GPT-2以来,大模型的整体架构虽然未有大的变化,但从未停止演化的脚步。借OpenAI开源gpt-oss(120B/20B),Sebastian Raschka博士将我们带回硬核拆机现场,回溯了从GPT-2到gpt-oss的大模型演进之路,并将gpt-oss与Qwen3进行了详细对比。

8月5日,在GPT-5发布前两天,OpenAI推出了它的两款开源权重大语言模型:gpt-oss-120b、gpt-oss-20b。

这是自2019年GPT-2,近六年来OpenAI首次发布开放权重的模型

得益于巧妙的优化技术,这些模型甚至可以在本地设备上运行。

Sebastian Raschka博士在《从GPT-2到gpt-oss:架构进步分析》一文中,将我们拉回硬核拆机现场,深度解析了从GPT-2到gpt-oss的LLM架构演进,并将gpt-oss与Qwen3进行了详细对比。

以下是本文的核心内容速览

  • 模型架构: GPT-2与gpt-oss模型架构对比;

  • MXFP4优化技术: 如何将庞大的gpt-oss模型部署在单张GPU上;

  • 宽度与深度的权衡: gpt-oss与Qwen3的设计思路对比分析;

  • 注意力机制的细节: 注意力偏置(Attention Bias)与注意力池(Attention Sinks)解析;

  • 性能基准: 全面评测并与GPT-5展望比较。


GPT-2与gpt-oss的模型架构比较


在深入讨论架构细节之前,先看gpt-oss-20b和gpt-oss-120b的整体架构。

图1:两个gpt-oss模型的对比

也许你会觉得,这与近期看过的LLM架构相比,并无任何新奇之处。

这并不奇怪,因为顶尖的LLM开发者,往往采用相同的基础架构,性能提升很可能来自数据与算法的调整,再做一些小幅微调。

背后原因可能包括:

 1. 人才流动:这些顶级实验室间的人才流动非常频繁;

 2. Transformer架构的霸主地位:至今还没找到比Transformer架构更优秀的方案;

 3. 性能提升可能来自数据处理和算法上的微调,而非重大的架构变革。


从GPT-2到gpt-oss,LLM模型的演化


先坐上「时光机」,回到GPT-2。

图2:gpt-oss-20b与GPT-2 XL1.5B的比较

gpt-oss和GPT-2都是建立在2017年论文《Attention Is All You Need》提出的Transformer架构之上的仅解码器(decoder-only)LLM。

1. 移除Dropout

Dropout是一种传统的防止过拟合的技术,在训练过程中随机「丢弃」一部分网络层的激活值或注意力分数(即将其设为零),GPT-2之后的多数现代LLM中很少再使用Dropout。

图3:将Dropout应用于注意力得分矩阵的示意图

GPT-2最初使用Dropout,可能是沿用了最早的Transformer架构设计。

研究者们发现,它并不能真正提升LLM的性能。

这很可能是因为LLM通常在海量的数据集上进行单轮训练,这与当初Dropout诞生时所针对的那种动辄训练数百轮的场景截然不同。

由于训练中每个token只被看到一次,过拟合的风险原本就很小。

今年的一篇论文通过在Pythia 1.4B的实验证实,在当前这种单轮训练模式下,使用Dropout反而会导致模型在下游任务中的表现变差。

2. RoPE替代绝对位置编码

在基于Transformer的大模型中,位置编码是必要的,因为注意力机制本身默认把输入的token视为无序。

在原始的GPT架构中,绝对位置嵌入通过为序列中的每个位置学习一个位置向量,并将其与token嵌入相加,从而注入位置信息。

图4:绝对位置嵌入的说明

RoPE(旋转位置嵌入)不是把位置信息作为独立嵌入相加,而是依据每个token的位置,对query和key向量施加位置相关的旋转来编码。

RoPE最早于2021年被提出,但直到2023年Meta发布初代Llama模型后才被广泛采用,并自此成为了LLM的标配。

3. 激活函数之争:Swish/SwiGLU何以取代GELU?

激活函数的选择曾是一个热门话题,直到十多年前逐渐落定到ReLU。

此后研究者提出并尝试了多种更「平滑」的ReLU变体,其中GELU和Swish被广泛保留并沿用至今。

图5:Swish和GELU激活的比较,它们都是ReLU的更平滑版本

早期的GPT架构使用GELU,其定义为:0.5·x·[1+erf(x/√2)]。

其中erf(误差函数)与高斯积分相关,通常通过对高斯积分的多项式近似来计算。而Swish使用的是更简单的sigmoid函数,它的形式是x·sigmoid(x)。

在实践中,Swish的计算成本略低于GELU,这或许是它在多数新模型中取代GELU的主要原因。

至于建模性能,不同论文结论略各有差异,但这些差异往往落在统计标准误差范围内,最终优劣还高度依赖超参数调校。

如今,Swish已成为大多数架构的选择。不过,GELU也并未被完全抛弃,例如谷歌今年发布的Gemma模型就仍然坚持使用GELU。

更重要的变化:GLU结构

更值得注意的是,比替换激活函数本身更值得注意的变化是,模型中的前馈网络(feed-forward module)模块的结构也发生了改变。

前馈模块常被带门控的GLU(Gated Linear Unit)变体取代。

具体而言,原本的两层全连接会被三层全连接替换,其用法如下图所示。

图6:Swish与GELU,及其门控对应版本SwiGLU和GEGLU的比较

为便于说明,可对比常规FFN与GLU变体的具体代码实现思路:

图7:常规前馈模块(顶部)和SwiGLU变体(底部)

假设embedding维度为1024。常规FFN中,隐藏维常取4×d_model=4096,因此有:

fc1:1024×4096=4,194,304  


fc2:1024×4096=4,194,304


也就是说,fc1+fc2=8,388,608个参数。

GLU变体(SwiGLU)参数总量:

3×1,048,576=3,145,728

结论非常清晰:SwiGLU结构不仅性能更好,总参数量实际上还更少。

其优势来自于门控带来的额外的乘法交互,增强了模型的表达能力。在训练得当的前提下,更深更窄的网络往往胜过更浅更宽的网络。

4. 混合专家模型 (MoE) 替代单个前馈网络

除了上文提到的把前馈模块升级为SwiGLU之外,gpt-oss还用多个前馈模块替换了单个前馈模块,并在每个token生成步骤中只启用其中的一个子集。

这种做法称为Mixture-of-Experts(MoE,专家混合),如下图8所示。

图8:前馈模块被专家混合(MoE)模块替代

因此,用多个前馈模块取代单个前馈模块(MoE的典型做法)会显著增加模型的总参数量。

不过关键在于:我们不会对每个token激活所有专家,因此,MoE常被称为稀疏模块。与之相对,始终使用全部参数的称为致密模块。

MoE带来的总参数量意味着在训练中能「装下」更多知识;稀疏性又能在推理阶段保持较高的效率。

5. 分组查询注意力(GQA)替代多头注意力(MHA)

近年,分组查询注意力(Grouped Query Attention, GQA) 已成为多头注意力(Multi-Head Attention, MHA) 的一种计算和参数效率都更高的替代方案。

在多头注意力(MHA)中,每个头都拥有一套独立的键和值向量。

GQA的核心思想则是通过分组来减少计算量:它让多个查询头共享同一套键和值。

如(图9)所示,假设有4个注意力头和2个键值组(key-value groups),那么头1和头2可以共享一组键值,而头3和头4则共享另一组。

这种分组机制减少了键和值的总计算量,从而降低了内存使用并提升了效率。

在推理过程中,需要缓存(KV Cache)和读取的键值张量变少了,这极大地降低了对内存带宽的需求,从而加快了生成速度。

图9:MHA与GQA的比较;此处,组大小为2,其中一对键和值在2个查询中共享

GQA有如下两个好处:

(1)降低参数量;

(2)在推理时减少K/V张量的带宽占用,因为KVCache中需要存取的K/V更少。


6. 滑动窗口注意力 (Sliding Window Attention)

滑动窗口注意力(Sliding-window attention见下图10,这一技术最早由LongFormer论文(2020年)引入,后来被Mistral推广。

图10:常规注意力(左)与滑动窗口注意力(右)的比较

有趣的是,gpt-oss在每隔一层就应用一次滑窗注意力,可以把它视作MHA/GQA的一种变体。

其核心思想是将注意力计算的范围限制在一个较小的窗口内,从而有效降低内存占用和计算成本。

gpt-oss在网络中交替使用两类GQA层:一种对全上下文做注意力,另一种使用仅128 token的滑动窗口。

根据消融研究,滑动窗口注意力对模型性能的影响很小。

需要注意的是,Gemma2的窗口为4096 tokens,而Gemma3将其降到1024 tokens。在gpt-oss中,窗口仅为128 tokens,可谓非常小。

GPT-3已经使用了类似的交替致密与局部带状稀疏注意力,而gpt-oss与GPT-3类似,也采用交替的致密与局部带状稀疏注意力模式。

回看了GPT-3论文,确实有相关描述:

我们使用与GPT-2相同的模型架构……不同之处在于,我们在Transformer的各层中采用了交替的致密与局部带状稀疏注意力模式,这与Sparse Transformer类似。


7. RMSNorm替代LayerNorm

最后,与GPT-2相比的最后一个小调整,是用RMSNorm取代LayerNorm。

与把GELU换成Swish,把FFN换成SwiGLU的做法类似,RMSNorm也是一种小而合理的效率提升。

RMSNorm和LayerNorm的目的都是对层激活值进行归一化,如下图所示。

图11:一个小线性层中LayerNorm(左)与RMSNorm(右)的比较

在图11中,LayerNorm和RMSNorm都将层输出缩放到一个合理的范围内。

LayerNorm会减去均值并除以标准差,使层输出具有零均值与单位方差(方差为1、标准差为1)。

RMSNorm则将输入除以RMS。这不会强制零均值与单位方差,但均值与方差仍会落在合理区间:均值约在-1到1,方差约在0到1。

尽管两者都能起到稳定激活值、改善优化的作用,但LLM中,RMSNorm更受青睐,因为它计算成本更低。

与LayerNorm不同,RMSNorm没有偏置(bias/shift)项,并把计算均值和方差两个步骤简化为RMS操作。

这使得跨特征维度的规约(reduction)操作从两次减少到了一次,从而降低了GPU之间的通信开销,提升了训练效率。

下图展示了它们在代码实现上的区别

图12:LayerNorm和RMSNorm的代码实现,显示RMSNorm在计算上更简单

8. GPT-2的价值传承

学习LLM时,GPT-2是非常好的入门级架构。

从GPT-2入手,你可以把重心放在基础要素上(注意力机制、位置嵌入、归一化以及整体训练流程),而不会被新架构里层出不穷的功能与微调细节「淹没」。


gpt-oss与Qwen3的比较


在梳理了从GPT-2到gpt-oss的演进之后,Sebastian Raschka博士将gpt-oss与更近的架构Qwen3进行比较。

选择Qwen3,主要基于两点原因:

1. Qwen3在当前属于顶尖开源权重(open-weight)模型;

2. Qwen3的某个MoE变体在可训练参数规模上与gpt-oss相近,便于直接对比。


通过图中的对比,可以看到:gpt-oss20B与Qwen3 30B-A3B在架构上非常相似。

图13:gpt-oss-20b与Qwen3模型比较

主要差别在于gpt-oss使用了滑动窗口注意力机制,而Qwen3未使用该机制。

1. 宽度与深度权衡

Qwen3是一个更深的架构,它有48个Transformer Block,而不是24个(见下图14)。

图14:Qwen3的Transformer块数量是gpt-oss-20b的两倍

gpt-oss的架构要「宽」得多:

嵌入维度(embedding dimension)为2880,Qwen3为2048。

中间专家层(即前馈网络)的投影维度也为2880,Qwen3为768。

gpt-oss的注意力头数约为Qwen3两倍,但这不会直接增加模型「宽度」,因为后者主要由embedding维度决定。

在参数总量固定的前提下,「更深」与「更宽」孰优?

一个经验法则是:更深的模型表达更灵活,但训练更易不稳(梯度爆炸/消失),这正是RMSNorm与残差/捷径连接试图缓解的问题。

更宽的架构在推理时通常更快,因为并行度更好。代价是更高显存占用。

2. 少量「大专家」vs 大量「小专家」

gpt-oss的专家数量更少(32 vs 128),且每个token激活专家更少(4 vs 8);但gpt-oss的单个专家更大,比Qwen3的专家「更宽」。

这点颇有意思,因为近来的趋势倾向于「更多、更小」的专家。

DeepSeek有关MoE的论文中对此有很好的示例。

图15:《DeepSeekMoE:迈向混合专家语言模型的终极专业化之路》论文注释图


与DeepSeek不同,gpt-oss与Qwen3均未采用「共享专家」设计。

客观说,gpt-oss-20B的专家较少,可能只是因为它模型尺寸较小的缘故。

观察gpt-oss-120B版本(见下图16),确实在其他设置不变时增加了专家数与层数。

图16:对比两个gpt-oss架构,120B模型仅扩展了Transformer块的数量和专家的数量

然而,仅在层数与专家数两个维度上缩放的情况并不常见。

Qwen3的多档MoE模型(见图17)会在更多方面做更成比例的伸缩。

图17:不同Qwen3模型中的架构差异


3. 注意力偏置(Attention Bias)与注意力池(Attention Sinks)

gpt-oss与Qwen3都采用GQA(分组查询注意力)。

主要区别是gpt-oss在每隔一层使用滑动窗口注意力来限制上下文。

但有个细节引人注意:gpt-oss似乎在注意力权重里使用了偏置项。

图18:gpt-oss模型在注意力层使用偏差单元


GPT-2之后,很少再看到偏置项用于此处,通常被视为冗余。

根据近期一篇论文,从数学上证明至少对k_proj来说确实如此;而实证也显示有无偏置差别很小。

图19:展示了在从头开始训练模型时,有和无偏差单元的平均测试损失。

还有一个细节是图18的代码里sinks的定义。

注意力池(Attention Sinks)通常指一些特殊的、安插在序列开头的常被关注token。它们的作用是稳定注意力机制,在长上下文场景下尤其有用。

在gpt-oss的实现中,注意力汇并非真实token,而是按头(per-head)学习的bias logits,直接加到注意力得分上。

图20:gpt-oss中注意力汇流的使用;基于此处Hugging Face代码


有趣的小知识


1. 训练概述

关于gpt-oss训练集规模与算法的信息不多。下面摘录了模型卡(1)与公告(2)里最关键的线索:

gpt-oss使用了我们最先进的预训练与后训练技术进行训练[…](1);

训练耗时约210万H100GPU小时,其中gpt-oss-20B少了近10倍(1);

流程包括有监督微调阶段与高计算量的强化学习阶段[…](2);

数据主要是英文、纯文本,偏重STEM、编程与通用知识(2)。


由此可知,gpt-oss是推理型模型。其210万H100小时的训练量,与DeepSeek V3(278.8万H800小时)大致同级。

可惜Qwen3的训练时长尚未公开。

gpt-oss的训练时长同时包含了指令跟随的监督学习与推理的强化学习;而DeepSeek V3仅是预训练基座,其上另行训练了DeepSeek R1。

2. 推理力度

如上所述,gpt-oss是推理型模型。特别之处在于,它被训练成可通过推理时伸缩,让用户调节推理强度。

具体来说,gpt-oss可以在系统提示中接受「Reasoning effort:low/medium/high」指令(见下图21),并直接影响回复长度与准确度。

图21:不同推理力度下gpt-oss模型的响应长度和质量(来自模型卡的标注图)

这种可调性便于在成本、算力、准确度之间平衡。

3. MXFP4优化:小而关键的细节

一个有趣的惊喜是,OpenAI为MoE专家发布了MXFP4量化方案的gpt-oss模型。MXFP4的优化使模型能在单卡设备上运行。

它可以让gpt-oss-120B放进单张80GBH100或更新的GPU;而20B小模型甚至可以放进16GB显存。

gpt-oss模型,在旧硬件上也能跑,但不支持MXFP4,因此显存占用更高。

4. 基准测试

从gpt-oss公告给出的推理类基准看,gpt-oss与OpenAI自研闭源以及Qwen3旗鼓相当(见下图22)。

图22:主要基准图表来自官方gpt-oss公告帖子。"无工具"的gpt-oss-120b数据来自官方模型卡论文,Qwen3的数值来自官方Qwen3仓库。

值得注意的是,gpt-oss-120B的规模几乎只有Qwen3 A235B-A22B-Thinking-2507的一半,且可单卡运行。

当然,基准成绩不等于真实可用性。据这几天的试用,gpt-oss的能力不俗,但也存在不少人所观察到的,幻觉倾向相对偏高(这点在模型卡中也有提及)。

这可能与其在数学、谜题、代码等推理任务上的训练重心有关,导致一定的「通识遗忘」。

但由于gpt-oss是面向工具使用设计,优先提升「推理力」而非「记忆量」,随着开源LLM的工具集成成熟,这个短板未来或许影响渐小。

5. gpt-oss与GPT-5

OpenAI在gpt-oss之后,很快就发布了期待已久的GPT-5。

有趣的是,就基准表现(见图23)而言,gpt-oss模型与OpenAI旗舰产品之间的接近程度令人惊喜。

图23:gpt-oss数据来自官方模型卡论文和公告,Qwen3数据来自官方Qwen3-Coder仓库。

当然,基准≠实用。由于目前使用样本还少,结论为时尚早。但对喜爱开源与本地/私有化部署的人而言,这无疑是一个好时机。

参考资料:

https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652620688&amp;idx=3&amp;sn=82958d1b889e0c67371e8c86974aa8f0&amp;chksm=f0cdbe9a744c277330f9fa17e6ab4a99b9991525e5d13f06a78759b6464d0a76fe366e22f325&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/3DKt7Tfwju&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们