ToolsAi

新智元报道

编辑：编辑部

【新智元导读】单机驾驭4万亿参数，国产开源AI四大天王推理快到炸裂！这背后不是算力堆叠的肌肉秀，而是「元脑SD200」超节点AI终极杀器。超大显存、超高速互联域、超强算力，还支持64路本土GPU，全面可商用。

国产「四大开源天王」，同时在单机上跑起来了！

DeepSeek+Qwen+Kimi+GLM，超万亿参数的模型，竟毫无一丝压力地神速输出。

你可能会问：一次性运行如此巨量的参数模型，靠的是什么？

答案并不是简单地堆砌多个集群，而是算力AI系统不断Scale Up的终极成果，简而言之就是「超节点」（SuperPod）。

这个最初由英伟达提出的概念，如今在国内外火的一塌糊涂。

2025开放计算技术大会上，浪潮信息带着超节点AI服务器「元脑SD200」来了，单机即可跑万亿参数模型。

它具备了更大显存空间、更大Scale Up高速互联域，以及更大算力超节点系统。

关键是，全面可商用。

元脑SD200

面向万亿大模型的开放超节点

元脑SD200，是一个可支持万亿参数大模型运行的超节点AI服务器。

浪潮信息基于创新研发的多主机低延迟内存语义通信架构，以开放系统设计了这个服务器，可以聚合64路本土GPU芯片。

这背后，就是浪潮信息在计算领域Scale Up十几年的技术积累，和前沿大模型开发的一手经验。

而结果也是十分惊人，实测显示，SD200直接突破了系统的性能边界，在大模型的多个应用场景上，都实现了极佳的算力曲线！

比如在DeepSeek R1的全参PD分离推理测试中，推理框架可以实现64卡性能370%的扩展效率。

架构创新

在应用架构层面，浪潮信息基于Open Fabric Switch，构建了3D Mesh系统架构，实现了单机64路本土GPU芯片的高速互连。

同时，他们通过远端的GPU虚拟映射技术，突破了多Host交换域的统一编址难题，让显存的统一地址空间直接扩增了8倍。

由此，单机可以提供最大4TB的统一显存，和64GB的统一内存。这就为万亿超长序列模型提供了充足的KV Cache空间。

因此，SD200的客户就有充分的空间，可以去探索各类前沿大模型的创新应用场景！

比如开头提到的场景——单机部署DeepSeek、Qwen、Kimi、GLM四大开源模型，发挥各个模型的能力专长，让Agent按需调用。

同时，基于百纳秒级的超低延迟物理链路，它可以实现64卡大高速互连域的原生内存语义通信，还能支持Load-store、Atomic这种原子操作，在推理常用的小数据包场景上，能力提升非常明显。

系统创新

并且，作为一款复杂的异构计算系统，不仅需要卓越的硬件架构设计，还需要有一套与之相匹配的软件系统。

因此，根据万亿参数大模型计算通信需求的特征，浪潮信息团队研发了Smart Fabric Manager系统，实现了超节点64卡全局最优路由。

它能支持多卡多用、不同拓扑结构的切分和切换，也就可以实现按需分配。

针对All Reduce、All Gather这种典型的通信算子，团队开展了不同层级的通信策略，实现了通信延迟的进一步降低。

同时，团队还开发了一套开放的PD分离推理框架。

它可以支持异步高效的KV Cache传输，能满足多种不同场景的需求。PD差异化的并行策略，大幅提升了业务场景的SLO，还能兼容多元的AI芯片。

万亿参数模型Scaling

超节点火了

超节点，为何成为了AI算力的「新宠」？

在AI浪潮的汹涌推动下，LLM的迅猛发展对算力提出了近乎苛刻的要求。

与此同时，AI已经成为全行业战略性的业务选择，随之带动了巨大的算力消耗。

因此，我们顺势见证了全球AI数据中心的加速扩张。

麦肯锡曾给出这样的预测数据：在未来五年，全球AI数据中心的总投资将达到5.2万亿美元。

而随之新增加的电力容量增量，将达到125GW。这个数字，相当于整个2024年中国总用电量的20%，或者十个三峡电站的发电量。

而到2030年，AI数据中心的算力容量将达到2025年容量的3.5倍。

从千亿到万亿参数规模的飞跃，MoE架构继续推动大模型不断Scaling，由此算力集群也加速迈向了「万卡协同」时代。

这几天，全球开源模型轮番轰炸，比如OpenAI刚刚开源gpt-oss 20B和120B推理模型。

再加上前段时间，Qwen、Kimi、GLM等多款模型相继开源，成功跻身全球顶尖开源大模型阵营。

随着LLM继续向万亿、甚至十万亿参数规模和更长上下文演进，其推理和训练过程算力需求呈指数级增长。

不论是GPT-5、Grok 4、Gemini 2.5 Pro等闭源模型，还是gpt-oss、Kimi K2等开源模型，参数量自增导致KV缓存剧增，远超传统AI服务器显存能力极限。

与此同时，Agentic AI的兴起，进一步加剧了算力挑战。

它们具备了自主决策、连续任务执行、多模态交互等能力，其推理过程要比传统模型多100倍toekn。

OpenAI智能体Operator自主订餐

而且，其输出结果往往会作为下一步输入，推理速度往往在50-100 token/s。

显然，这对显存容量和带宽提出了极高的要求，形成了「显存墙」和「带宽墙」的双重瓶颈。

传统单点算力、小规模集群已难以应对上述一些挑战。

另一方面，摩尔定律逐渐放缓，芯片制程提升成本和难度不断加大，业界亟需新的算力增长路径。

此时，超节点通过整合GPU资源，构建高性能算力实体，成为必然路径。

无论是模型参数量的增加、大模型推理的需求，还是Agentic AI的多模协作范式，都需要更大显存空间、更大高速互联域、更高算力的超节点系统支撑

要知道，在大模型训推中，芯片互联拓扑的高效性至关重要。

为了满足模型并行计算所需的海量数据交换，超节点必须具备高带宽和低时延的通信能力。

Scale Up通过在单一节点内，整合更多GPU资源，构建出低延迟、高带宽的统一的算力实体。

它不仅有效支撑并行计算任务，还能加入GPU之间参数交换和数据同步。

相较于传统的Scale Out方案，Scale Up具备了显著优势。

会上，浪潮信息副总经理赵帅表示，「推理对延迟敏感，Scale Up通过短链路实现更高效的芯片间通信，特别是在推理过程常见的小数据包通信场景下性能提升显著」。

而且多芯片封装在同一IO带上，可以构建高带宽、低延迟的统一计算域。

以英伟达GB200 NVL72为例，整合72个GPU和36个CPU，吞吐量比传统8卡服务器互联方案高出3倍。

GB200 NVL72

未来3-5年，Scale Up和Scale Out将并行发展，前者将域持续扩大支持更大模型，后者规模也将增长以应对多模型协同需求。

如今，在国内，超节点成为了AI算力领域的「风向标」。

燧原科技、沐曦等国产AI芯片厂商，以及浪潮信息等AI服务器厂商正加速布局，尝试在该赛道上占据一席之地。

与别家不同的是，浪潮信息以「开源开放」为核心战略，正加速万亿参数大模型的商业化落地。

开放超节点架构

打破算力边界

当前，业界在AI计算系统架构创新上，存在多种技术路径，如异构计算、存算一体、协同创新等。

在浪潮信息看来，每种路径都有价值，需根据应用需求具体选择。

异构计算强调芯片多样性；存算一体注重存储与计算融合；协同创新则打通了芯片、系统和软件层面。

从元脑SD200产品中不难看出，浪潮信息聚焦的是Scale Up的路径，优先去解决大模型推理的低延迟需求，同时通过软硬协同去挖掘算力的潜力。

赵帅总表示，「开放架构」是核心策略，通过提供多种算力方案，从应用角度给客户更多选择。

它通过贴近客户需求，快速适配应用场景，加速万亿参数模型在AI4 Science、工业等领域的落地。

最关键的是，这种开放架构还收获了产业化的效益。

诸如OCP、OAM开放标准推动了规模效应，进而降低电路板、线缆等硬件成本，让超节点从巨头走向普惠。

在这过程中，浪潮信息通过整合国内供应链，如高速连接器、线缆、电源等，进而提升生态竞争力。

元脑SD200另一大优势，便是扩大兼容的软件生态。

一些基于传统大模型做定制的客户，如生物医药、气象等领域的模型，可以实现快速迁移、满血运行。

采访中，赵帅总表示，元脑SD200超节点的技术，脱胎于其「融合架构」的长期积累。

自2010年起，团队便开始探索融合架构，从最初的供电、散热等非IT资源的整合，到存储、网络等资源池化，再到最新融合架构3.0系统实现了计算、存储、内存、异构加速等核心IT资源彻底解耦和池化。

由此沉淀下来的芯片共享内存数据、统一编址技术、池化、资源动态调度等技术，为超节点的研发积累了深厚的技术基础。

正如上文所提，内存语义通信技术的应用，使得元脑SD200能够快速适配万亿参数模型的场景需求。

同样至关重要的是，浪潮信息在软硬协同系统优化上的持续投入。

2021年，浪潮信息曾发布中文巨量模型「源1.0」，其参数规模为2457亿，积累了深厚的模型训练和推理优化经验。

这种软硬协同的创新，同样体现在元脑SD200的PD分离框架，未来可进一步挖掘算力芯片潜力，提高利用率。

正如赵帅所强调的，开放生态是打破性能瓶颈，推动产业发展的关键。

通过开放超节点架构，浪潮信息不仅提升了自身产品的竞争力，还拉动了整个产业链的协同创新。

元脑SD200的开放设计，让更多硬件厂商、软件开发者参与其中，共同优化算力与模型的适配效率。

浪潮信息的开放战略，以应用为导向，以系统为核心，聚焦在当前技术、生态、成本约束下，为用户侧创造最大的价值。

这种系统化思维贯穿于超节点技术的研发与应用中。这也是浪潮信息做开放计算，开放生态的一个核心。

在超节点架构和开源生态的双轮驱动下，浪潮信息正引领AI算力基础设施向开放化、标准化、协同化迈进。

元脑SD200的成功发布，以开源为基石，将为千行百业智能化转型注入不竭的动力。

<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652618268&amp;idx=1&amp;sn=f828ccc7edc254ed46914eed144a93f9&amp;chksm=f0103b43ec793a4068e19a4ae493ea545325640fdeeeb7a08e4048ddad3fd30d6b6c64413925&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/ZztziwKlWi&amp;maxage=1y"  width="1px"></div></div></body></html>

动态列表

单机狂飙4万亿参数，国产AI「四大天王」首次合体！这台超节点鲨疯了

新智元报道

【新智元导读】单机驾驭4万亿参数，国产开源AI四大天王推理快到炸裂！这背后不是算力堆叠的肌肉秀，而是「元脑SD200」超节点AI终极杀器。超大显存、超高速互联域、超强算力，还支持64路本土GPU，全面可商用。

类别

资源

联系我们