动态列表

  • OpenAI「GPT门」事件引爆!Plus、Pro账户统统降配,偷换模型全网实锤
  • 突发,普林斯顿CS博士后猝然离世!清华本科毕业,刚完成论文答辩
  • 惊现高管离职潮!马斯克亲信操盘xAI,千亿美元能填AGI野望?
  • 黄仁勋2小时反驳「AI泡沫帝国」论!英伟达将成全球首家十万亿市值公司
  • 云与AI,如何托举 Z 世代的创新野心
  • 8GB显卡的逆袭!SSD换显存,3060 Ti硬跑100k长上下文
  • NeurIPS 2025 | 我奶奶都能复现?条件表征学习:矩阵一乘,表征立马“对齐”!
  • 北京/杭州内推 | 阿里通义实验室招聘多模态大模型与智能体方向算法实习生
  • NeurIPS 2025 | 北大等提出C²Prompt:解耦类内与类间知识,破解联邦持续学习“双重遗忘”难题
  • InterDigital开源CompressAI-Vision:为“AI看”的视频压缩,打造一个“通用跑分平台”
  • 24.98万的理想i6,在特斯拉、小米、蔚来「后院」放了一把火
  • 小米 17 开售 5 分钟,破国产机销售纪录;Meta 研发机器人项目;国内发布「脑机接口标准」
  • Stability AI前CEO惊人预测:人类智力价值归零,只剩1000天!
  • 刚刚,奥特曼预言:人类「只剩」最后5年!
  • 免训练加速61倍!陈怡然团队新作DPad:仅关注「彩票token」
  • 估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」
  • 苹果掀桌!扔掉AlphaFold核心模块,开启蛋白折叠「生成式AI」时代
  • 自动驾驶进入大模型时代,主机厂寻找「联合创始人」
  • 复旦等揭秘机器人“大脑”安全漏洞:一张图就能让它“宕机”,攻击成功率76.2%
  • DASFAA 2025 | 湖大等提出SCRA-VQA:给LLM一份“精装修”的图像描述,无需训练提升VQA性能
  • 苹果官方旗舰店也放假,商品不发货;腾讯推「老年打车」服务;车主酒驾,智能驾驶「报警」|极客早知道
  • 刚刚,ChatGPT Pulse上线!私人秘书不再是富人特权
  • 颠覆算力格局!全球首个星座级太空AI算力服务,在中国诞生
  • OpenAI 3万亿美元测试,AI首战44个行业人类专家!
  • JHU教授揭秘学术潜规则:普通博士如何打破鄙视链翻盘?
  • Hinton预言错了!年薪狂飙52万美元,AI没有「干掉」放射科医生
  • 168 元一年的「小红卡」,是小红书打破本地生活红海的钥匙
  • 当 5 亿玩家涌入 AI 的 3D 新世界
  • 博士申请 | 香港中文大学(深圳)冀晓强老师课题组招收人工智能全奖博士/硕士
  • 128k死穴被击穿!Amazon爆改长上下文:段内压缩快4×,推理不掉点还更准
  • 普林斯顿陈丹琦组新作:RLHF难支撑,RLVR有边界?RLMT开辟第三条路
  • AI 到底会不会做生意?1688 的答案让人惊喜
  • 找人不求人?Lessie 让「人脉玄学」变成算法游戏|AI 上新
  • 斯坦福推出VisualMimic:让机器人“眼观六路”,零样本完成复杂任务
  • 浙大发布RS3DBench:让遥感AI看懂3D世界,首个像素级对齐的大规模基准来了!
  • 小米 17 系列发布,4499 起;追觅「库里南」图片曝光;YU7 Max 成「百万最速」车
  • 刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了
  • AI正在偷走白领工作!OpenAI狂砸10亿教AI上班,你的完美继任者即将上岗
  • Sora 2瑟瑟发抖!通义万相2.5放大招:一句话出1080P电影,音画精准同步
  • 信息熵之后,清华提出状态熵!量化分析「系统智能性」的全新视角
  • 突发!Meta刚从OpenAI挖走了清华校友宋飏
  • KV缓存不再爆!清华姚期智团队重写注意力维度,长上下文更省更强 | NeurIPS 2025 Spotlight
  • 78条打穿1万条!上交大新范式告诉你:智能体训练靠“质”,不是靠“量”
  • 北京内推 | 中科院软件所数据科学研究中心招聘大语言模型算法实习生
  • 三款骁龙芯片曝光,高通谷歌联手打造「安卓 PC」时代
  • Instagram 月活破 30 亿,靠“短视频”和“私信”;2027款iPhone曝光;女子用ChatGPT选号中百万大奖,全部捐出
  • 一年4次迭代,狂堆GPU成真!微软AI冷液灌芯,散热暴涨3倍
  • 刚刚,阿里CEO吴泳铭发布「ASI宣言」:超级智能才是终局!
  • 前Meta工程师爆料:17人团队15个H-1B!一夜之间80%对手没了?
  • 秘塔AI放大招!「边想边搜边做」,内置20+智能体,想法一键实现
  • 震撼!AI物理「双修」:亥姆霍兹方程嵌进生成器,伪影当场消失
  • 恶劣天气下的图像修复:南理工等提出LCDiff,让AI在雨雪雾天也能看得清
  • OCRBench v2 25年9月最新榜单发布!揭示多模态大模型文档智能真实水平
  • 博士申请 | 加拿大麦吉尔大学智能自动化实验室招收大模型/强化学习方向全奖博士生
  • NeurIPS 2025 | 甩掉文本CoT!FSDrive开启时空思维链,自动驾驶迈入视觉推理时代
  • RL不再撒胡椒面!港科大 × 清华新作:只盯“规划token”,大模型推理力狂飙
  • 3 天卖完今年所有产能,蔚来全新 ES8 如何实现逆风翻盘?
  • 超越 AGI,阿里剑指「超级智能」
  • Point-SSM:一种用于点云分析的极简状态空间模型,在医学点云任务上表现SOTA
  • 字节跳动OmniInsert炸场:无需掩码,任意物体“贴”进视频,效果碾压闭源SOTA!
  • ContextFlow:无需训练的视频编辑新范式,实现电影级魔改!
  • 忘了法拉利,一辆中国车正在改写游戏规则
  • 40亿投进去,换回了什么?全新问界M7的「值得」哲学
  • 华为问界新 M7,1 小时大定 3 万;李想:iPhone 17 顶配太丑,不买;防台风,腾讯「捆绑」QQ 企鹅塑像
  • 一半人明天不上班,GDP不会掉一点!耶鲁大学揭AGI残酷真相
  • 告别胶水代码,5倍飚速!无问芯穹首次揭秘,Infra智能体蜂群登场
  • Depth Anything再出新作!浙大 & 港大出品:零样本,优化任意深度图
  • H-1B「天价签证」引爆恐慌!印裔精英返乡梦碎,2800亿市场剧震
  • 突发:甲骨文CEO下台!刚和OpenAI签下3000亿美元大单,或因路线斗争
  • 年轻一代创作者,学会与 AI 共舞
  • KDD 2025 | 从个股偏离到市场共振:UMI挖出股市非理性因子,显著提升预测精度
  • 北京内推 | Apple中国招聘机器学习/AI方向研究型实习生
  • 一套框架搞定图像定制!IC-Custom统一「位置相关/无关」,万物迁移真落地
  • MiniCPM-V 4.5技术报告正式出炉!首个高刷视频理解多模态模型全解析
  • TPAMI | 数据增强还在“盲操”?南大提出IPF-RDA,让模型训练告别信息丢失
  • SilentStriker:无声击溃大模型
  • Yann LeCun团队新作LLM-JEPA:结合联合嵌入预测架构,显著提升大模型微调性能与效率,在代码生成任务上表现卓越
  • 小米 17 系列手机官宣 9 月 25 日发布;iPhone 17 标准款需求超预期,苹果已增产;罗永浩再回应债务问题:个人债务五年前就还完了,后面是主动还的公司债务|极客早知道
  • 比思维链准43%!逻辑脑+大模型直觉,推理可靠性大幅提升
  • 陶哲轩官宣AI数学基金首轮名单:29个项目瓜分1.3亿,数学界沸腾!
  • GPT-5仅23.3%,全球AI集体挂科!地狱级编程考试,夺金神话破灭
  • 一手奶瓶一手键盘!新手宝妈产假氛围编程,自研实用家庭App
  • 刚刚,DeepSeek-V3.1「终极版」重磅发布!最大提升超36%,V4/R2还远吗?
  • 为了千元机用户的「流畅权」,OPPO 为安卓换了个「引擎」
  • ​一年卖出 10 个亿,这是年轻人真正的「户外神器」
  • Teable 宣布完成数百万美元天使轮融资,让数据库「长出耳朵和手」
  • 北京内推 | 智源研究院多模态交互研究中心招聘多模态/具身智能方向研究型实习生
  • 博士申请 | 复旦大学魏龙老师课题组招收AI4Science方向博士/硕士/RA/实习生
  • Lumos-1登场!自回归 + 离散扩散合体:让大模型真正“构造”动态世界!
  • RLHF要下岗?Meta × 牛津搞出新套路:用算力教算力,大模型训练新范式来了!
  • 不到两千块,我拍到了专业级别的月全食|New Things
  • 字节跳动SAIL-VL2登顶OpenCompass,开源高效多模态新标杆
  • 苹果发布Manzano:一种简单可扩展的统一多模态大模型,其混合视觉Tokenizer统一了理解与生成任务,性能SOTA
  • 博后年薪40万到90万 | 东方理工朱文韬课题组招聘AI方向博士后、研究助理教授、访问学生、实习生
  • 黄仁勋出手,50 亿美元入股英特尔,英伟达一统「GPU+x86」生态
  • 巴菲特清仓比亚迪,期间股价上涨 38 倍;苹果折叠屏手机细节曝光;雷军年度演讲定档 9 月 25 日

国内首次!8.9毫秒推理速度破纪录,1元打穿百万token



  新智元报道  

编辑:好困 桃子 
【新智元导读】当所有人还在为参数内卷时,智能体真正的决胜点已经转向了速度与成本。浪潮信息用两款AI服务器直接给出了答案:一个将token生成速度干到10毫秒以内,一个把每百万token成本打到1元时代。

Agentic AI时代,已经到来!

英伟达GTC大会上,老黄公开表示,当AI具备了感知和推理能力时,智能体AI就诞生了。

「它如同数字世界的「机器人」,本质是理解-思考-行动」。

当前,AI智能体革命已至临界点。国内外科技巨头纷纷加速布局,全力争夺这一赛道主导权。

据Gartner预测,到2028年,AI智能体将参与人类约15%的日常工作决策。

Georgian报告也显示,如今,91%的企业研究主管正计划在内部铺开Agentic AI的落地应用。

然而大规模部署之前,「交互速度」与「成本控制」仍是横亘在许多企业面前的两大关键挑战。

这里有简单的一个案例,就足以说明一些问题。

国外一支开发团队基于Azure的OpenAI服务,构建了一个智能体。然而,随着时间的推移,响应变得越来越慢,一次简单查询耗费10秒以上。

当他们用OpenAI API测试完全相同的提示词后发现:OpenAI响应时间为1-2秒,Azure则需要5-10秒。

同一款模型,同一个提示词,却有五倍差异。

要知道,智能体的交互速度,直接决定了用户体验的质量。如今,人们对AI响应速度的期待,已从「秒级」进化到「毫秒级」。

不仅如此,成本又直接决定了智能体产业化的可行性。多智能体的协作,对低延迟和token消耗又提出了更高的要求。

分毫必争的响应速度,决定了人们是否愿意买单;而真金白银的投入,则决定了企业能否持续推动AI智能体落地。

那么,如何才能既要又要呢?

在2025人工智能计算大会上,浪潮信息重磅发布了两大破局创新系统:元脑SD200超节点AI服务器,以及元脑HC1000超扩展AI服务器。

  • 在元脑SD200上,DeepSeek R1大模型的Token生成速度飙升至8.9毫秒,创下国内LLM推理的最快纪录,首次将智能体实时交互带入「10毫秒」时代。


  • 在元脑HC1000上,LLM的推理成本被前所未有地压缩至「1元/百万Token」,彻底击穿规模化部署的成本天花板。



Scaling Law下一站:AI智能体爆发


2025年,大模型的Scaling并未放缓,而是进入了一个全新的阶段。

Scaling Law的焦点,早已从「预训练」转向了「推理」。


从o3、Gemini 2.5,到Grok 4、GPT-5,全球顶尖AI不断迭代,每一次发布都刷新了以往SOTA。

这一演进的节奏仍在加速。爆料称,谷歌Gemini 3.0、OpenAI Sora 2都将于十月初面世。

反观国内,DeepSeek R1/V3.1-Terminus、Qwen家族等开源模型,月更、周更已成为常态。

在能力边界上,LLM正从纯文本,走向了融合视觉、听觉的多模态模型,并逐步演变为一个底层「操作系统」。

可以预见,AI能力将依旧会指数级增长——

LLM性能越来越强,所处理的任务长度和复杂度,也在不断提升。

我们看到,Scaling Law推动的模型参数量,从百亿千亿向万亿、甚至百万亿迈进。

与此同时,在后训练阶段增加算力投入,可显著提升LLM推理能力。

为何这一转变如此重要?因为「推理」是构建Agentic AI的基础。

众所周知,2025年,是「智能体元年」。作为LLM的核心应用形态,智能体落地进入了爆发期。

在这一赛道上,谷歌、OpenAI、Anthropic等巨头竞相布局。

比如,OpenAI的「编码智能体」GPT-5-Codex深受开发者欢迎;另外,还有正在内测的「GPT-Alpha」,具备高级推理、全模态,可以调用工具。

然而,AI智能体的产业化落地并非易事。

能力、速度和成本,成为了当前AI智能体产业化决胜的「铁三角」。

AI不再局限于技术演示、实验,而要深入场景,成为创造可衡量价值的核心生产力。

这意味着,商业成功的核心已从单纯追求模型能力,转向对能力、速度、成本三者的综合平衡。

交互速度:决定智能体的商业价值


在智能体时代,速度不再是锦上添花,而是生存底线。token的吞吐速度,已成为AI应用构建的「隐形计时器」。

在人机交互时代,我们对AI延迟感知不强,只要响应速度跟上人类阅读思维即可。

一般来说,只要满足20 token/s输出速率,就能实现流畅的阅读体验。

而现在,AI的游戏规则彻底改变。

交互主体不再是「人-机」对话,而是「智能体-智能体」的高频博弈。

延迟哪怕是几毫秒,也可能导致决策失效。而且,在规模化商业部署中,这种差异会被无限放大,形成「以快杀慢」的绝对碾压。

智能体间交互,多为「小数据包」高频通信。这好比修了16条车道高速公路,AI只跑两公里,巨大的带宽对于小包传输如同虚设。

而传统通信协议「上下高速」的过程,反而成了主要耗时。

延迟是会层层累加的。当前智能体仅是初露锋芒,未来互联网将由它们主导协作。

每一个交互环节的微小延迟,都会在复杂的协同网络中呈指数级放大,最终导致整个应用响应慢到无法接受。

如果延迟无法降低,那就失去了商业化的可能性。

举个栗子,在欺诈防控场景中,对智能体响应速率提出了极限要求——约10毫秒。

当前,DeepSeek响应速度基本在10-20毫秒左右,其他的普遍高于30毫秒。这远不足以支持AI的高频交互。

token成本:规模化的生死线


此外,token成本,是智能体能否实现规模化扩张,并且盈利的关键。

即便模型能力卓越,若token成本无法控制在合理范围内,高频、并发的实际应用,将难以持续。

一方面,LLM存在着「token膨胀」效应:推理前思考过程已产生上千万token。一个复杂任务,直接让token成本指数级暴涨。

那么,是什么原因导致token思考数暴增?

首先必须承认的是,模型本身算法能力差异是影响因素之一。

不同LLM在设计和训练过程中,算法架构和优化策略各有优劣,而优化程度更高的LLM可通过更高效推理路径,在较少token消耗下完成相同的任务。

其次,底层计算架构选择路径等,也会进而影响token成本。

因为LLM运行有依赖于底层的计算架构,包括硬件加速器、分布式计算框架等等。

若是计算架构无法高效支撑LLM推理需求,比如在分布式系统中存在通信瓶颈或计算资源分配不均,LLM可能需要生成更多token「绕路」完成任务。

当前,在做AI Coding的程序员,每月消耗token数比一年前平均增长约50倍,达到1000万-5亿token。

企业每部署一个智能体,平均token成本大概1000-5000美元。未来五年,token消耗预计增长100万倍。

可见,不论是速度,还是成本,都成为AI智能体商业化落地的最大挑战。

面对这个难题,我们该如何解?


两大核心方案,拿下速度成本难题


浪潮信息,同一时间给出了两大解决方案——

元脑SD200超节点AI服务器  


元脑HC1000超扩展AI服务器


元脑SD200


若要实现更低延迟token生成能力,就需要在底层基础设施,比如架构、互联协议、软件框架等关键点上,实现协同创新。

浪潮信息新的突破,在于元脑SD200超节点AI服务器。

如前所述,DeepSeek R1在元脑SD200上token生成速度实现了8.9毫秒。

目前,最接近的竞争对手,最好的数据是15毫秒。这是国内首次将智能体实时交互,带入到10毫秒时代。

为何元脑SD200能够取得如此大的速度突破?

这背后离不开团队,融合了智能体应用和超节点开发的技术成果。

· 首创多主机3D Mesh系统架构

它可以实现单机64路本土AI芯片纵向扩展(Scale Up),提供4TB显存和6TB内存,构建超大KV Cache分级存储空间。

而且,单节点即可跑4万亿参数LLM,或同时部署多个协作的智能体。

此外,在硬件设计上还支持了「开放加速模组」(OAM),兼容多款本土AI芯片。

· 跨主机域全局统一物理地址空间

团队还通过远端GPU虚拟映射技术,突破了跨主机域统一编址的难题,让显存统一地址空间扩展8倍。

它还支持拓扑动态伸缩,可按需扩展128、256、512、1024卡的规模。

通过Smart Fabric Manager,元脑SD200实现了单节点64卡全局最优路由,保障了芯片间通信路径最短,进一步缩短了通信延迟。

最重要的是,互协议的设计,是元脑SD200实现极低延迟的关键。

首先,团队采用了基建的协议栈,只有物理层、数据链路层、事务层三层协议,原生支持Load/Store等「内存语义」,GPU可直接访问远端节点的显存或主存。

并且,基础通信延迟达到了「百纳秒级」。

其次,浪潮信息Open Fabric原生支持由硬件逻辑实现的链路层重传,延迟低至微秒级。

不依赖OS、软件栈,它就能匹配更低延迟、更高吞吐的AI推理场景。

元脑SD200还采用了,分布式、预防式流控机制,无需丢包或ECN来感知拥塞。

得益于以上高效、可靠的协议设计,元脑SD200实现了业界最低0.69微秒通信延迟。

当然了,超节点的大规模商业化应用,还必须依靠整机的高可靠的设计。

为此,浪潮信息从系统硬件层、基础软件层、业务软件层,构建了多层次、可靠的保障机制。

  • 系统硬件层:全铜缆电互连,短距离紧耦合传输,每十亿小时故障率低于「光模块互联」方案100倍

  • 基础软件层:创新GPU故障信息转储、跨域故障关联定位等技术,实现全方位可观测、全栈运维自动化

  • 业务软件层:基于Profiling性能数据启动故障预隔离和任务自动迁移,保证业务故障预测与自愈,实现推理响应不中断


在元脑SD200上,团队还非常强悍地实现了推理性能超线性扩展。这意味着,性能的提升幅度超过了资源投入的增加幅度。

以DeepSeek R1-671B为例,从16卡扩展到64卡,实现了16.3倍超线性的扩展率!

具体来看,元脑SD200将这件事做到了极致的完美:

通过PD分离策略、动态负载均衡等技术,充分发挥出了超节点的架构优势,让系统内部的处理流程变得极其高效,资源竞争和拥堵被降到最低。


最终,将通信耗时控制在了10%以内。

可以设想,在实际高并发场景下,当请求量急剧攀升时,系统能够高效地将负载均匀分布至各个计算单元,避免了个别节点的「拥堵」拖累整个系统的响应时间。

这意味着,无论是第1个请求,还是第100万个请求,都能获得同样稳定且低水平的延迟。

既能「跑得快」又能「跑得多」,保证绝对极致的低时延,这就是实现规模化的生命线!

基于软件生态FlagOS,元脑SD200还能继续兼容更大的生态,主流代码即可直接编译运行。

当前,元脑SD200已实现对Pytorch算子的全覆盖,AI4S的典型应用可以一键迁移。

如下所示,64个AlphaFold 3蛋白质结构预测,即可在一台元脑SD200超节点AI服务器同时运行。

速度挑战解决之后,token成本又该怎么打下来?

元脑HC1000


为此,浪潮信息给出的答案是——元脑HC1000超扩展AI服务器。

它基于全对称DirectCom极速架构打造,能够聚合海量的本土AI芯片,支持极大的推理吞吐。

对于一个企业来说,在起步探索、POC阶段,平台通用性更加重要,可以快速验证想法,抢占市场先机。

这对其创新、迭代的速度,至关重要。

但当它进入大规模部署阶段,即应用被市场验证,token调用数呈指数级增长是时,核心目标又转变为——高效、低成本运营。

而元脑HC1000,就能把推理成本打到最低1元/百万token。

· 全对称DirectCom极速架构

DirectCom极速架构,每计算模组配置16颗AIPU,采用了直达通信的设计,解决了传统的服务器架构下,协议转换和带宽增强问题,实现了超低延迟。

计算通信1:1均衡配比,实现了全局的无阻塞的通信。

传统意义上,计算与通信是互斥关系,计算时不会传输,计算完成后再传。

当前,有很多将计算和通信结合的策略,主要是把原来在传过程,针对GPU等待时间做优化。

除此之外,还包含了许多细粒度的任务,比如不同模型架构,不同并发情况,通信数据块大小和通信策略都要优化,才能提升效率。

HC1000还采用全对称的系统拓扑设计,可支持灵活PD分离、AF分离,按需配置算力,最大化资源利用率。

它还支持多元算力,让不同的芯片协同工作。

· 超大规模无损扩展

同时,HC1000支持超大规模无损扩展,实现从1024卡到52万卡不同规模的系统构建。

计算侧支持DirectCom和智能保序机制,网络侧支持包喷洒动态路由,实现了深度算网协同,相较传统RoCE方法提升1.75倍。

它还支持自适应路由和智能拥塞控制算法,将KV Cache传输对Prefill、Decode计算实例影响降低5-10倍。

总结来看,元脑HC1000是通过「全面优化降本」和「软硬协同增效」,实现了高效token生产力。

它不仅创新了16卡计算模组,单卡成本暴降60%+,每卡分摊系统均摊成本降低50%。

而且,它采用了大规模工业标准设计,降低了系统复杂度的同时,还提高了系统可靠性,无故障运行时间大幅延长。

系统采用的DirectCom架构保障了计算和通信的均衡,让算网协同、全域无损技术,实现了推理性能1.75倍飙升。

通过对LLM的计算流程的细分和模型结构的解耦,实现了计算负载的灵活的按需配比。

单卡MFU计算效率,最高可以提升5.7倍。

元脑SD200+元脑HC1000,成为浪潮信息两大「杀手锏」,分别攻克了AI智能体应用速度和成本难题。

那么,下一步又该走向何方?


「专用计算架构」是未来


近期,OpenAI在算力布局上,动作频频:

先是和甲骨文签下3000亿美元大单,随后又获得英伟达100亿美元的投资。

紧接着,他们又官宣了「星际之门」五大超算全新选址计划。

这一系列举措,无不指向一个核心事实——对于LLM训练和部署而言,算力需求始终是一个「无底洞」。

当前,AI算力的可持续发展正面临三大关键挑战:

  • 工程极限:系统规模的扩展已逼近工程能力的上限。

  • 能源压力:算力的大幅增长给电力基础设施带来了巨大负担。

  • 效能失衡:算力投入和产出失衡,商业兑现进程缓慢。


目前,市面上的「AI芯片」仍以通用芯片为主。

GPU,是增加了CUDA核心和矩阵运算Tensor核心的传统图形计算芯片;ASIC,则是优化了矩阵计算和张量处理的通用矩阵计算芯片。

但正如前文所述,这些基于通用计算架构的方案,正逐渐在能效比和成本效益上触及瓶颈。

仅是单纯依靠堆叠更多计算单元,或是提升制程工艺的传统路径,难以沿着scaling Law在算力规模、能耗、成本之间取得平衡。

其原因在于,通用架构虽然适用性强、易于产业化推广,但效率低下。

相比而言,应用面较窄的专用架构,则有着更高的效率。

对此,浪潮信息AI首席战略官刘军认为,未来的关键便是在于「发展AI专用计算架构」:

我们必须推动发展路径的转变,要从一味地追求规模扩展,转向注重提升计算效率。  


并以此为基础,重新构思和设计AI计算系统,大力发展真正面向AI应用的「专用计算架构」。


具体而言,就是从硬件层面来优化算子与算法,定制出大模型专用芯片,进而实现软硬件层面的深度协同优化,即「算法硬件化」。

只有这样才能让性能的Scaling,追上token的高速增长。

这不仅是突破算力瓶颈的必经之路,更是推动AI产业迈向下一阶段的基石。

面对大模型时代,浪潮信息的前瞻性思考为业界指明了一条方向:通过创新计算架构,让AI更好地走向落地。


<br>


    <a class="media_tool_meta meta_primary" href="http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==&amp;mid=2652630784&amp;idx=1&amp;sn=f3157b930c5546863d9cd7505c1e5541&amp;chksm=f036885d9dafc783f0809cc4e004cfc90c1e0c915dc37c982c8c9571ac2f846120f3b5114b5f&amp;scene=0#rd"  target="_blank">文章原文</a>
    <br>




<img alt="" class="" height="1px" src="https://images.weserv.nl/?url=http://www.jintiankansha.me/rss_static/5418/FIEEPhd0qt&amp;maxage=1y"  width="1px"></div></div></body></html>

联系我们