9 月 10 日,在上海举行的活动上,Arm 全新 Arm Lumex 计算子系统(Compute Subsystem,CSS)平台正式全球发布。作为每年全球新款手机 SoC 的核心,今年的 Arm 解决方案重磅更新,让人们不得不关注。
在连续使用二十年 Cortex 命名之后,Arm 的端侧高性能 CPU 核心已被重命名为 C1 CPU,隶属于 Lumex CSS 平台,该平台专为旗舰手机、个人电脑设计,着重于加速 AI 体验。
这体现了 Arm 从「IP 提供商」向「计算平台解决方案提供商」转变。除了移动端,Arm 还在多个产品线上部署计算平台,包括面向基础设施市场的 Neoverse、面向 PC 市场的 Niva、面向汽车市场的 Zena 和面向 IoT 市场的 Orbis,所有计算平台都引入了 Arm 计算子系统 (CSS)。
在端侧 GPU 上,Mali 将继续作为 GPU 品牌,不过在新一代技术的发布中,Arm 同样提升了光追、AI 加速等能力。
Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展(SME2)技术的最高性能 Arm CPU、GPU 及系统 IP,不仅能助力生态伙伴更快将 AI 设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。
Arm 高级副总裁兼终端事业部总经理 Chris Bergey 表示:「AI 已不再仅仅是一项技术功能,它已成为下一代移动与消费技术的支撑底座。依托 Arm Lumex 平台,我们持续提升端侧 AI 体验,以满足用户日益增长的需求与期待。为此,我们正积极将 SME2 技术扩展至每一个 CPU 平台。预计到 2030 年,SME 与 SME2 技术将为超过 30 亿台设备新增超 100 亿 TOPS 的计算能力,为端侧 AI 带来大量全新应用。」
全新 Arm Lumex 平台包含以下核心组件:
- 新一代搭载 SME2 技术的 Armv9.3 CPU 集群:包括 Arm C1-Ultra 和 Arm C1-Pro,为旗舰设备提供支持;
- Arm C1-Premium:专为次旗舰市场打造,可提供一流的面积效率;
- Arm Mali G1-Ultra GPU:配备新一代光线追踪技术,在实现先进的图形和游戏体验同时,还可提升整体 AI 性能;
- Arm C1-DSU:Arm 迄今为止最灵活、高能效且具多种电源模式的 DynamIQ Shared Unit(DSU)。
Arm 表示,Lumex 提供针对 3 纳米工艺优化、生产就绪的 CPU 和 GPU 实现。同时,KleidiAI 已集成至所有主流移动操作系统及 AI 框架中,可以帮助开发者提供易用的 AI 加速体验。
Arm 新发布的 IP 核也包括中核 C1-Pro 及小核 C1-Nano。
Arm Lumex 是 Arm 新的专用计算子系统 (Compute Subsystem, CSS) 平台,旨在满足旗舰移动设备和 PC 上持续增长的端侧 AI 体验需求。搭载 SME2 的 Arm C1 CPU 集群为实际场景上的 AI 驱动任务带来了大幅度的 AI 性能提升,整体 AI 性能提升高达五倍,多达三倍的能效优化,语音类工作负载延迟降低 4.7 倍,音频生成速度则可以提升 2.8 倍。
全新 Arm CPU 在 AI 算力上的提升,正在让实时的端侧 AI 推理成为现实,为用户在音频生成、计算机视觉及情境助手等多种交互场景中带来更流畅、更快速的体验。
在基础性能上,借助全新的 Armv9.3 CPU 集群,Arm Lumex 也实现了两位数的 IPC 提升。
在大核心的 Arm C1-Ultra 上,其提供的 IPC 提升能达到两位数,单线程峰值性能提升 25%,同性能功耗降低 28%(相比 Cortex-X925)。
Arm C1-DSU 在 Arm C1 CPU 集群中起到核心作用。C1-DSU 为支持最新的架构和新的低功耗特性而设计,对比上一代 DSU-120 能节省功耗高达 26%,同时提升带宽的扩展能力,对于生成式 AI 的推理速度来说,这是非常重要的提升。
在业内主流基准测试上,Arm C1-CPU 集群相比上一代 CPU 集群性能平均提升 30%,在游戏和视频流媒体等应用中平均提速 15%。与此同时,在日常移动端工作负载如视频播放、社交 App、网页浏览上,新 CPU 的功耗平均降低了 12%。
在实际场景中,SME2(Scalable Matrix Extension 2,可伸缩矩阵扩展)技术将响应速度与运行效率提升至全新水平。得益于 SME2 技术,本地 AI 应用的文本转语音生成速度提升了 2.4 倍,且全程不用担心设备的电池续航问题。此外,Arm 与支付宝、vivo 三方合作,将大语言模型 (LLM) 的交互响应时间缩短了 40%,充分证明了 SME2 可为终端设备带来更快速的实时生成式 AI。
SME2 技术的价值不仅在于速度的提升,更在于释放出传统 CPU 无法企及的 AI 驱动功能。例如,在搭载 SME2 的单个核心上运行神经摄像头降噪功能,可以在 1080P 分辨率下实现帧率超 120 帧 / 秒 (fps),或在 4K 分辨率下实现帧率达 30fps。这使得智能手机用户即使身处光线最暗的场景,也能捕捉到更锐利、清晰的图像,进而在日常设备上获得更流畅的操作交互与更丰富的使用体验。
Arm 表示,SME2 已经被业界生态伙伴广泛采用,包括阿里巴巴、支付宝、三星 System LSI、腾讯及 vivo。
开发者可以在 Arm Lumex 平台上获取开机即用的 AI 开发体验。通过 KleidiAI 与各大主流框架的集成,包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 及微软 ONNX Runtime,开发者无需修改任何代码,即可自动取得 SME2 的加速能力。
同样提升巨大的还有 Arm 的「公版」GPU。全新的 Arm Mali G1-Ultra GPU 为手游玩家带来高保真、主机级画质。这一突破得益于全新的第二代光线追踪 (Ray Tracing Unit v2, RTUv2) 技术,该技术显著提升光照、阴影与反射效果,使其光线追踪性能相较前代提升了两倍。
与上一代 RTUv1 相比,RTUv2 的智能化程度有了提升,由于采用了单光线模型,增加了对于非一致性光线的支持。新设计提升了 GPU 的能效和性能。Arm 工程师表示,RTUv2 可在渲染空闲时不消耗资源,从而大幅节省电力。
在 AI 工作负载方面,Mali G1-Ultra 可将推理性能提升最高 20%。与此同时,新 GPU 的每帧能耗降低了 9%。
在各类图形基准测试中,Mali G1-Ultra 较前代产品 Arm Immortalis-G925 GPU 实现了约 20% 的性能提升,为《暗区突围:无限》、《堡垒之夜》、《原神》、《崩坏:星穹铁道》等主流游戏带来了全面的性能增强。除了顶配的 G1-Ultra,Arm 也提供 Mali G1-Premium 与 Mali G1-Pro 两款 GPU,为硬件资源受限的设备提供出色的性能与能效表现。
Arm 还计划在明年提供基于神经网络的图像增强能力,实现手机端侧的去噪、AI 插帧等能力,预计在明年就能落地。
总体而言,Arm 根据当前 AI 应用即将大规模落地的情况,在移动端芯片上提供了新的系统级 IP 以及整合。在新架构中,通过内部互联能力升级,Arm 提供了更有效的解决方案,进一步减小了吞吐延迟,实现了系统级的 AI 性能改进。这些提升可适用于低端机、可穿戴设备,为最广大的用户群体带来了生成式 AI 的可能性。
即使目前正在所有产品线上推动 CSS 服务,Arm 表示其仍然主要关注芯片设计领域上 CPU、GPU 等基础计算模块的构建。对于芯片厂商来说,人们仍需要自行设计、构建或购买、内存控制器、NPU、ISP、通信基带等并实现整合。
众多手机 OEM 厂商开始自研芯片。Arm 表示,合作伙伴可以灵活选择使用 Arm Lumex 的方式,为其打造系统级芯片 (SoC)。例如,他们可直接采用 Arm 交付的平台,并借助为其需求定制的先进物理实现方案,从而获得缩短产品上市时间和快速兑现性能价值等双重优势;或者,合作伙伴也可根据他们的目标市场,对平台寄存器传输级 (RTL) 设计进行配置,并自行完成核心模块的硬化工作。
Arm 预计到 2030 年,SME 和 SME2 将为超 30 亿台设备新增超 100 亿 TOPS 的计算能力。这将使端侧 AI 能力实现指数级飞跃,它将降低成本、减少延迟、增强隐私,整体提升用户体验。
]]>