智通财经APP获悉,中信证券发布研报称,华为联合硅基流动发布论文《Serving Large Language Models on Huawei CloudMatrix384》,在针对DeepSeek-R1模型的测试中,基于CloudMatrix384的昇腾910C NPU可实现赶超英伟达H800 GPU的计算效率。该行认为,CloudMatrix384的出现将推动国产AI基础设施加速升级,明确超节点发展方向,树立AI基础设施的新标杆,并加速算力产业的国产替代趋势。
从产业链受益角度看:1)中芯国际(688981.SH)先进制程产能作为国产算力根基,其战略价值进一步凸显。此外先进制程衍生的封测、载板、电源管理等环节也有望同步受益。2)AI推理增量需求下,国产算力的差异化性价比成为突围之路,国产算力份额有望加速提升。一级市场建议优先关注当前占据国产算力芯片领先地位的初创企业。3)存储芯片作为核心受益环节。
中信证券主要观点如下:
华为CloudMatrix384 AI超节点的核心价值在于从底层重新定义AI集群架构。
当前AI大模型的发展呈现几大趋势:1)参数规模的指数级增长带来对算力和存力的更高要求;2)MoE专家架构的广泛采用对网络通信能力提出更高要求;3)上下文长度急剧扩展也对数据分发、KV Cache访存提出新要求。而传统AI集群日益受到计算强度、内存带宽限制,芯片间通信开销及严苛延迟要求的制约,给底层基础设施带来了诸多挑战。该行认为,华为CloudMatrix通过芯片升级、架构创新和系统级优化打造的超节点,为AI基建升级方向带来示范效应:
1)芯片设计升级:核心AI芯片昇腾910C于2024年发布,采用双Die封装,每个Die提供约376 TFLOPS(BF16/FP16)的算力,整个芯片算力高达752 TFLOPS。内存方面,单芯片集成了8个内存堆栈(每个堆栈16GB),总共128 GB HBM内存,内存带宽达到3.2TB/s。此外910C在单芯片互联上达到392GB/s的单向带宽,对比英伟达NVLink第四代的双向带宽为900GB/s。计算节点方面,CloudMatrix384中的每个计算节点都集成了8个昇腾910C NPU、4个鲲鹏CPU和7个UB交换芯片。
2)创新架构设计:从芯片到节点,CloudMatrix采用全对等互联架构,通过超高带宽、低延迟的统一总线(Unified Bus, UB)网络将384颗昇腾910C NPU和192颗鲲鹏CPU以及其他硬件组件集成到一个统一的超级节点,并将计算、内存、网络资源解耦为独立池化单元,例如内存池可通过UB网络跨节点共享,解决了传统架构中内存带宽不足的痛点,特别有利于大规模MoE专家并行和分布式KV Cache访问,使CloudMatrix384成为下一代大语言模型服务的可扩展和高性能基础。此外CloudMatrix还针对性设计了三个互补的网络平面:在UB平面(Scale-up)、RDMA平面(Scale-out)和VPC平面(外部互联)之间融合协同,既保证了集群内部的高性能通信,又兼容现有数据中心基础设施,为大模型混合负载提供灵活支持。
3)优化服务引擎:从硬件底座到计算引擎,华为提出专门为大规模MoE模型设计的综合性LLM服务解决方案CloudMatrix-Infer,提供跨越算法、服务引擎、CANN库和云服务的全栈优化。该方案颠覆传统“以KV Cache为中心”的设计,避免了远程读取KV Cache的巨大网络开销严重拖累性能的问题,而是将系统分解为Prefill、Decode、Caching三个功能集群,并且都可以通过UB网络以统一的带宽和延迟直接访问Caching集群中的共享内存池。软件生态方面,华为打造的神经网络计算架构(CANN)作为中间软件层,实现了高级AI框架(如PyTorch和TensorFlow)与昇腾NPU的底层硬件接口之间的高效集成,进一步看齐英伟达CUDA生态。
性能指标看齐英伟达,通过大模型的实测数据,CloudMatrix384实现了业界领先的硬件利用效率,验证其竞争力。
根据SemiAnalysis的分析,虽然单颗昇腾910C芯片性能约为英伟达GB200 GPU的1/3,但通过规模化设计优化,CloudMatrix384整体系统级算力跃升,BF16下总算力为GB200 NVL72的1.7倍,总内存容量为3.6倍,内存带宽也达到2.1倍。但受限于芯片用量增加和制程差异,也在总功耗上达到了3.9倍,单TFLOP耗电瓦数也是英伟达的2.3倍。根据论文数据,在Prefill预填充阶段,CloudMatrix-Infer 达到了4.45 tokens/s/TFLOPS,显著高于 SGLang on H100的3.75和 DeepSeek on H800的3.96。在Decode阶段,CloudMatrix-Infer达到了1.29 tokens/s/TFLOPS,超过了SGLang on H100的1.10和DeepSeek on H800的1.17,面向大模型实时推理场景展现强大的竞争力。
风险因素:
算力芯片供应链风险;芯片产能供给不足的风险;互联网大厂资本开支不及预期;相关产业政策出台力度不及预期;AI技术及应用发展不及预期;芯片技术迭代不及预期;国产先进制程量产进展不及预期;海外大厂产能调控不及预期;国产存储芯片客户拓展不及预期;地缘政治风险等。