动态列表

  • 银河通用WRC首发英伟达Thor,银河太空舱世界首创城市级机器人应用
  • OpenAI o3封王,4比0横扫马斯克Grok 4!全球大模型对抗赛完美收官
  • 首篇WebAgents综述:大模型赋能AI Agent,实现下一代Web自动化
  • 维他动力Vbot:当遥控器被丢掉,才是机器狗「有生命感」的第一步?
  • 挤不动的世界机器人大会上,自变量秀出了真·通用具身智能
  • 4比0横扫Grok 4,o3强势夺冠,首届大模型对抗赛结果出炉
  • 扩散LLM推理新范式:打破生成长度限制,实现动态自适应调节
  • GPT-5真的拉胯吗?机器之心一手实测,网友:还我4o、还我4.5
  • 从Debugger到Developer : 低代码时代新基准NoCode-bench,SWE-Bench作者力荐
  • 「贴地飞行」:大疆 ROMO 扫地机器人首发体验
  • 「油车智障」的招牌,被奥迪一脚踢开
  • GPT-5 来了,多项能力屠榜;OpenAI 给所有员工发 150 万美金奖金;特朗普喊话英特尔 CEO:必须立即辞职
  • 刚刚,奥特曼发布GPT-5!人人免费用「博士级」智能,基准图错误遭全网吐槽
  • 北大、字节跳动联手发布SWE-Swiss:一把修复代码Bug的「瑞士军刀」,完整配方直指开源SOTA
  • 刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
  • 一夜颠覆Sora神话,H200单卡5秒出片!全华人团队开源AI引爆视频圈
  • OpenAI GPT-5 发布:模型能力全面「屠榜」,构建「超级智能」的第一步
  • 从能展示到能顶岗,人形机器人的「上班时刻」到了吗?
  • 行业唯一大电池旗舰性能机,iQOO Z10 Turbo+ 2199元起正式发布
  • 云计算一哥首度牵手OpenAI,大模型「选择」自由,才是终极胜利
  • 颠覆互联网的下一波浪潮:Agentic Web来了!
  • 三重激励+全周期扶持,即梦升级这个计划,让AI创作者的成长有迹可循
  • DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
  • 硬核拆解大模型,从 DeepSeek-V3 到 Kimi K2 ,一文看懂 LLM 主流架构
  • 让AI读懂「言外之意」:AI4SG团队发布首个心理健康污名语料库,破解隐性偏见识别难题
  • 谷歌开源DeepPolisher,基因组组装错误率减半,Jeff Dean:令人振奋!
  • AI 能造世界了?谷歌 DeepMind 的 Genie 3 分秒生成《死亡搁浅》
  • 一块钱的AI,开始审判人类
  • 您猜怎么着?Grok 4进决赛,大模型对抗赛Gemini全军覆没,马斯克「装」起来了
  • 人大高瓴-华为诺亚:大语言模型智能体记忆机制的系列研究
  • 3秒级破百+820km续航,全新小鹏P7定义智能轿跑新标准
  • 傅利叶发布全新人形机器人“Care-bot”GR-3,定义"有爱的"交互新范式
  • GPT-5 发布时间定了;宝马 i 系列汽车设计主管 Kai Langer 宣布加入小米;消息称爱奇艺拟赴港上市融资 3 亿美元
  • 鼠标的未来是手环?解码肌肉信号,Meta黑科技登上Nature
  • Claude Opus 4.1代码实测惊人!OpenAI开源模型却只会写屎山?
  • 爆冷!首届大模型争霸,Grok 4下出「神之一手」?DeepSeek、Kimi惨遭淘汰
  • 全球独家首测Genie 3,实验室细节曝光超震撼!AGI最后一块拼图已实现
  • ICML2025|探索损失加权机制的本质以实现更好的LLM反学习
  • 快270倍,精度超93%,浙大侯廷军、康玉团队等全新扩散生成模型,树立蛋白质-多肽对接新标准
  • 群核科技InteriorGS数据集登顶全球开源榜首
  • Grok 新上的 AI 视频生成,自带「擦边」模式,马斯克靠「踩黄线」称霸 AI?
  • 闹玩呢!首届大模型对抗赛,DeepSeek、Kimi第一轮被淘汰了
  • Token成本下降,订阅费却飞涨,AI公司怎么了?
  • ICCV 2025 | SeaS: 工业异常生成+正常合成+精准掩码大一统框架,指标全面碾压SOTA
  • 第十三届互联网安全大会:多智能体蜂群掀起安全与 AI 融合革命
  • 震撼,世界模型第一次超真实地模拟了真实世界:谷歌Genie 3昨晚抢了OpenAI风头
  • 就是阻击OpenAI,Claude抢先数十分钟发布Claude Opus 4.1
  • 北大、蚂蚁三个维度解构高效隐私保护机器学习:前沿进展+发展方向
  • OpenAI重新开源!深夜连发两个推理模型,o4-mini水平,笔记本、手机可跑
  • Discrete Tokenization:多模态大模型的关键基石,首个系统化综述发布
  • 今年CJ,AI 成了游戏产业的「必答题」
  • OpenAI 完成 80 亿美元融资,估值 3000 亿;宇树发布新一代机器狗;英伟达深夜发声:不存在后门、终止开关、监控软件|极客早知道
  • 面向6G环境感知通信!西电开源3Dx3D无线电地图数据集与生成式基准框架
  • 黄仁勋预言成真!AI智能体成GitHub主力,一天顶人类一年
  • 谢赛宁「踩雷」背后,竟藏着科研圈更黑真相:Science实锤论文造假+AI滥用!
  • AI将消灭中产阶级!前谷歌高管惊人预警:未来只剩金字塔尖0.1%和底层
  • 电商上演「魔法对轰」:卖家用AI假图骗下单,买家拿AI烂水果骗退款
  • 科研写作神器,超越Mathpix的科学公式提取工具已开源
  • Nature丨首个AI生成的基因编辑器,脱靶率更低、免疫更轻,兼容碱基编辑
  • 谷歌约战,DeepSeek、Kimi都要上,首届大模型对抗赛明天开战
  • 南大周志华团队最新力作:一个算法通吃所有,在线学习迎来新范式?
  • 这个WAIC展台旁,围满小朋友
  • 全球首个人形机器人通用视觉感知系统,Humanoid Occupancy建立多模态环境理解新范式
  • 技术岗位占比超90%,AI岗位占比近5成!淘天集团开启2026届秋招
  • OpenAI 官宣周活 7 亿;特斯拉宣布马斯克获授价值 290 亿美元股票;苹果脑控技术首次现场演示 | 极客早知道|极客早知道
  • LLM抢人血案:强化学习天才被挖空,一朝沦为「无人区」!
  • MLLM集体翻车,缺乏婴儿级常识!业界首个核心认知基准发布,LeCun转赞
  • 奥特曼:ChatGPT只是意外,全能AI智能体才是真爱!Karpathy:7年前就想到了
  • 不止萌兔蹦迪!狸花猫竖中指,吃奶婴儿开飞机,魔性AI视频让人停不下来
  • 廉价版Model Y,救不了特斯拉
  • 蚂蚁集团联合中国人工智能学会发布AGI科研专项基金
  • 菁英会 | WAIC 2025以青春之力,筑AI学术新高峰:中国青年菁英共议学术破局之道
  • 思辨会 | 量子模拟:技术路线激辩与产业化破局——WAIC思辨会顶尖学者共议发展路径
  • 思辨会 | 思辨八方,智启未来——2025世界人工智能大会思辨会综述
  • 手机也能跑,腾讯混元一口气开源4款小模型
  • 3D-R1:让AI理解3D世界的下一步
  • 刚刚,全球首个集成云端Agent团队的IDE登场,项目级开发「全程全自动」
  • 机器人手画圆圈,怎么就成为了一大难题了?
  • 在WAIC耳朵听出茧子的「智能体」,是时候系统学一下了
  • ACM MM 2025 | 小红书AIGC团队提出风格迁移加速算法STD
  • 是的,在上海,我看见到处是好消息
  • 瞄准化学键,大卫·贝克团队提出通用蛋白质架构设计新范式
  • 游戏之外,芯片巨头不小心露出了第三增长曲线
  • Nature丨从基因组到田间,华中农业大学、中国科学院等提出融合生物技术与AI的育种新范式
  • 马斯克:研究者不存在了,只有工程师;LeCun:大错特错
  • a16z :AI 投资不再看模型性能;中国汽研、理想汽车双双回应 i8 测试争议;万事达否认向平台施压下架成人游戏
  • 九天大模型大变身:性能狂飙35%!还能一键P大象
  • 万亿参数狂欢!一文刷爆2025年七大顶流大模型架构
  • 豪拒15亿美金天价Offer,硅谷最狂AI巨星身份曝光!小扎、奥特曼抢破头
  • 兔子蹦迪疯传,5亿观看!全球恐慌:一段AI视频把全人类拉入虚拟现场
  • 全网苦等GPT-5,超级对齐团队遗作成重要线索,奥特曼发话「惊喜很多」
  • 图灵奖得主Sutton再突破:强化学习在控制问题上媲美深度强化学习?
  • GUI定位还在玩「非黑即白」?浙大团队提出GUI-G²,显著提升GUI智能体定位性能
  • OpenAI IMO金牌团队爆料:AI拒绝作答第六题
  • ​特斯拉车祸,被判赔偿超 2 亿美元;传 OpenAI 将推 10 美元「亲民订阅」;影石刘靖康:祝贺同行大疆推全景相机
  • GPT-5难产内幕曝光!核心团队遭挖空,推理魔咒难破,靠英伟达续命
  • 哥大学生全员AI作弊?小哥「创业逆袭」:不用AI等于输在起跑线!
  • Hinton预言成真,美国大学生掀起本科辍学潮!月入万刀修马桶,不怕AI裁员
  • 天才美少女的开挂人生,首次揭晓!11岁自学微积分,17岁推翻40年难题
  • GPT-5难产,外媒爆料:性能提升不大,OpenAI高管Slack上当众破防
  • 19岁小哥伯克利辍学创业,获2800万美元融资,OpenAI投了
  • 通向L3的正确范式?理想i8全球首发VLA高阶辅助驾驶,我们帮你试了试
  • ICCV 2025 | EPD-Solver:西湖大学发布并行加速扩散采样算法
  • 刚刚,谷歌「IMO金牌」模型上线Gemini,数学家第一时间证明猜想
  • 一个模型超了DeepSeek R1、V3,参数671B,成本不到350万美元
  • 多模态后训练反常识:长思维链SFT和RL的协同困境
  • 库克打气苹果 AI:不拼首创,自信能主导市场;微信提现手续费下调至 0.01 元;Manus 推 Wide Research

单机狂飙4万亿参数,国产AI「四大天王」首次合体!这台超节点鲨疯了



  新智元报道  

编辑:编辑部
【新智元导读】单机驾驭4万亿参数,国产开源AI四大天王推理快到炸裂!这背后不是算力堆叠的肌肉秀,而是「元脑SD200」超节点AI终极杀器。超大显存、超高速互联域、超强算力,还支持64路本土GPU,全面可商用。

国产「四大开源天王」,同时在单机上跑起来了!
DeepSeek+Qwen+Kimi+GLM,万亿参数的模型,竟毫无一丝压力地神速输出。
你可能会问:一次性运行如此巨量的参数模型,靠的是什么?
答案并不是简单地堆砌多个集群,而是算力AI系统不断Scale Up的终极成果,简而言之就是「超节点」(SuperPod)。
这个最初由英伟达提出的概念,如今在国内外火的一塌糊涂。
2025开放计算技术大会上,浪潮信息带着超节点AI服务器「元脑SD200」来了,单机即可跑万亿参数模型。
它具备了更大显存空间、更大Scale Up高速互联域,以及更大算力超节点系统。
关键是,全面可商用。

元脑SD200
面向万亿大模型的开放超节点
元脑SD200,是一个可支持万亿参数大模型运行的超节点AI服务器。
浪潮信息基于创新研发的多主机低延迟内存语义通信架构,以开放系统设计了这个服务器,可以聚合64路本土GPU芯片。
这背后,就是浪潮信息在计算领域Scale Up十几年的技术积累,和前沿大模型开发的一手经验。
而结果也是十分惊人,实测显示,SD200直接突破了系统的性能边界,在大模型的多个应用场景上,都实现了极佳的算力曲线!
比如在DeepSeek R1的全参PD分离推理测试中,推理框架可以实现64卡性能370%的扩展效率。

架构创新

在应用架构层面,浪潮信息基于Open Fabric Switch,构建了3D Mesh系统架构,实现了单机64路本土GPU芯片的高速互连。
同时,他们通过远端的GPU虚拟映射技术,突破了多Host交换域的统一编址难题,让显存的统一地址空间直接扩增了8倍。
由此,单机可以提供最大4TB的统一显存,和64GB的统一内存。这就为万亿超长序列模型提供了充足的KV Cache空间。
因此,SD200的客户就有充分的空间,可以去探索各类前沿大模型的创新应用场景!
比如开头提到的场景——单机部署DeepSeek、Qwen、Kimi、GLM四大开源模型,发挥各个模型的能力专长,让Agent按需调用。
同时,基于百纳秒级的超低延迟物理链路,它可以实现64卡大高速互连域的原生内存语义通信,还能支持Load-store、Atomic这种原子操作,在推理常用的小数据包场景上,能力提升非常明显。

系统创新

并且,作为一款复杂的异构计算系统,不仅需要卓越的硬件架构设计,还需要有一套与之相匹配的软件系统。
因此,根据万亿参数大模型计算通信需求的特征,浪潮信息团队研发了Smart Fabric Manager系统,实现了超节点64卡全局最优路由。
它能支持多卡多用、不同拓扑结构的切分和切换,也就可以实现按需分配。
针对All Reduce、All Gather这种典型的通信算子,团队开展了不同层级的通信策略,实现了通信延迟的进一步降低。
同时,团队还开发了一套开放的PD分离推理框架。
它可以支持异步高效的KV Cache传输,能满足多种不同场景的需求。PD差异化的并行策略,大幅提升了业务场景的SLO,还能兼容多元的AI芯片。


万亿参数模型Scaling
超节点火了
超节点,为何成为了AI算力的「新宠」?
在AI浪潮的汹涌推动下,LLM的迅猛发展对算力提出了近乎苛刻的要求。
与此同时,AI已经成为全行业战略性的业务选择,随之带动了巨大的算力消耗。
因此,我们顺势见证了全球AI数据中心的加速扩张。
麦肯锡曾给出这样的预测数据:在未来五年,全球AI数据中心的总投资将达到5.2万亿美元。
而随之新增加的电力容量增量,将达到125GW。这个数字,相当于整个2024年中国总用电量的20%,或者十个三峡电站的发电量。
而到2030年,AI数据中心的算力容量将达到2025年容量的3.5倍。
从千亿到万亿参数规模的飞跃,MoE架构继续推动大模型不断Scaling,由此算力集群也加速迈向了「万卡协同」时代。
这几天,全球开源模型轮番轰炸,比如OpenAI刚刚开源gpt-oss 20B和120B推理模型。
再加上前段时间,Qwen、Kimi、GLM等多款模型相继开源,成功跻身全球顶尖开源大模型阵营。
随着LLM继续向万亿、甚至十万亿参数规模和更长上下文演进,其推理和训练过程算力需求呈指数级增长。
不论是GPT-5、Grok 4、Gemini 2.5 Pro等闭源模型,还是gpt-oss、Kimi K2等开源模型,参数量自增导致KV缓存剧增,远超传统AI服务器显存能力极限。
与此同时,Agentic AI的兴起,进一步加剧了算力挑战。
它们具备了自主决策、连续任务执行、多模态交互等能力,其推理过程要比传统模型多100倍toekn。
OpenAI智能体Operator自主订餐
而且,其输出结果往往会作为下一步输入,推理速度往往在50-100 token/s。
显然,这对显存容量和带宽提出了极高的要求,形成了「显存墙」和「带宽墙」的双重瓶颈。
传统单点算力、小规模集群已难以应对上述一些挑战。
另一方面,摩尔定律逐渐放缓,芯片制程提升成本和难度不断加大,业界亟需新的算力增长路径。
此时,超节点通过整合GPU资源,构建高性能算力实体,成为必然路径。
无论是模型参数量的增加、大模型推理的需求,还是Agentic AI的多模协作范式,都需要更大显存空间、更大高速互联域、更高算力的超节点系统支撑
要知道,在大模型训推中,芯片互联拓扑的高效性至关重要。
为了满足模型并行计算所需的海量数据交换,超节点必须具备高带宽和低时延的通信能力。
Scale Up通过在单一节点内,整合更多GPU资源,构建出低延迟、高带宽的统一的算力实体。
它不仅有效支撑并行计算任务,还能加入GPU之间参数交换和数据同步。
相较于传统的Scale Out方案,Scale Up具备了显著优势。
会上,浪潮信息副总经理赵帅表示,「推理对延迟敏感,Scale Up通过短链路实现更高效的芯片间通信,特别是在推理过程常见的小数据包通信场景下性能提升显著」。
而且多芯片封装在同一IO带上,可以构建高带宽、低延迟的统一计算域。
以英伟达GB200 NVL72为例,整合72个GPU和36个CPU,吞吐量比传统8卡服务器互联方案高出3倍。
GB200 NVL72
未来3-5年,Scale Up和Scale Out将并行发展,前者将域持续扩大支持更大模型,后者规模也将增长以应对多模型协同需求。
如今,在国内,超节点成为了AI算力领域的「风向标」。
燧原科技、沐曦等国产AI芯片厂商,以及浪潮信息等AI服务器厂商正加速布局,尝试在该赛道上占据一席之地。
与别家不同的是,浪潮信息以「开源开放」为核心战略,正加速万亿参数大模型的商业化落地。

开放超节点架构
打破算力边界
当前,业界在AI计算系统架构创新上,存在多种技术路径,如异构计算、存算一体、协同创新等。
在浪潮信息看来,每种路径都有价值,需根据应用需求具体选择。
异构计算强调芯片多样性;存算一体注重存储与计算融合;协同创新则打通了芯片、系统和软件层面。
从元脑SD200产品中不难看出,浪潮信息聚焦的是Scale Up的路径,优先去解决大模型推理的低延迟需求,同时通过软硬协同去挖掘算力的潜力。
赵帅总表示,「开放架构」是核心策略,通过提供多种算力方案,从应用角度给客户更多选择。
它通过贴近客户需求,快速适配应用场景,加速万亿参数模型在AI4 Science、工业等领域的落地。
最关键的是,这种开放架构还收获了产业化的效益。
诸如OCP、OAM开放标准推动了规模效应,进而降低电路板、线缆等硬件成本,让超节点从巨头走向普惠。
在这过程中,浪潮信息通过整合国供应链,如高速连接器、线缆、电源等,进而提升生态竞争力。
元脑SD200另一大优势,便是扩大兼容的软件生态。
一些基于传统大模型做定制的客户,如生物医药、气象等领域的模型,可以实现快速迁移、满血运行。
采访中,赵帅总表示,元脑SD200超节点的技术,脱胎于其「融合架构」的长期积累。
自2010年起,团队便开始探索融合架构,从最初的供电、散热等非IT资源的整合,到存储、网络等资源池化,再到最新融合架构3.0系统实现了计算、存储、内存、异构加速等核心IT资源彻底解耦和池化
由此沉淀下来的芯片共享内存数据、统一编址技术、池化、资源动态调度等技术,为超节点的研发积累了深厚的技术基础。
正如上文所提,内存语义通信技术的应用,使得元脑SD200能够快速适配万亿参数模型的场景需求。
同样至关重要的是,浪潮信息在软硬协同系统优化上的持续投入。
2021年,浪潮信息曾发布中文巨量模型源1.0,其参数规模为2457亿,积累了深厚的模型训练和推理优化经验。
这种软硬协同的创新,同样体现在元脑SD200的PD分离框架,未来可进一步挖掘算力芯片潜力,提高利用率。
正如赵帅所强调的,开放生态是打破性能瓶颈,推动产业发展的关键。
通过开放超节点架构,浪潮信息不仅提升了自身产品的竞争力,还拉动了整个产业链的协同创新。
元脑SD200的开放设计,让更多硬件厂商、软件开发者参与其中,共同优化算力与模型的适配效率。
浪潮信息的开放战略,以应用为导向,以系统为核心,聚焦在当前技术、生态、成本约束下,为用户创造最大的价值。
这种系统化思维贯穿于超节点技术的研发与应用中。这也是浪潮信息做开放计算,开放生态的一个核心。
在超节点架构和开源生态的双轮驱动下,浪潮信息正引领AI算力基础设施向开放化、标准化、协同化迈进。
元脑SD200的成功发布,以开源为基石,将为千行百业智能化转型注入不竭的动力。


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652618268&amp;idx=1&amp;sn=f828ccc7edc254ed46914eed144a93f9&amp;chksm=f0103b43ec793a4068e19a4ae493ea545325640fdeeeb7a08e4048ddad3fd30d6b6c64413925&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/ZztziwKlWi&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们