7月26日,在2025世界人工智能大会(WAIC 2025)现场,华为首次展出的昇腾384超节点真机引发广泛关注,并被评为“WAIC镇馆之宝”。这一“算力核弹”的亮相,不仅展现了华为在算力领域的硬核实力,更凸显了其在AI基础设施建设上的突破性进展。
当前,大模型训练与推理对算力的需求呈爆炸式增长,传统计算架构却因资源利用率低、故障频发等问题,难以支撑AI技术的代际跃迁,对算力集群的系统工程能力提出了更高要求。在此背景下,华为昇腾384超节点的出现颇具意义。
这款超节点由12个计算柜和4个总线柜构成,实现了业界最大规模的384个NPU卡高速总线互联,具备超大带宽、超低时延、超强性能三大优势。与英伟达NVL72等行业超节点方案相比,其最关键的创新在于打破传统以CPU为中心的“主从架构”,提出“全对等架构”。借助高速互联总线的突破,将总线从服务器内部扩展到整机柜乃至跨机柜,实现CPU、NPU、DPU、存储和内存等资源的全互联与池化,去除繁多中转环节,达成真正的点对点互联,进而提升算力密度和互联带宽。
性能上,昇腾384超节点堪称强悍。其算力总规模达300Pflops,是英伟达NVL72的1.7倍;网络互联总带宽达269TB/s,较后者提升107%;内存总带宽达1229TB/s,提升113%;单卡推理吞吐量跃升至2300 Tokens/s。通过最佳负载均衡组网等方案,它还能进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群,为更大规模模型的演进提供支撑。
性能测试数据显示,在昇腾超节点集群上,LLaMA3等千亿稠密模型性能比传统集群提升2.5倍以上;在Qwen、DeepSeek等通信需求更高的多模态、MoE模型上,性能提升可达3倍以上,较业界其他集群高出1.2倍,处于行业领先地位。
华为专家表示,单芯片制程从7纳米到5纳米、3纳米、2纳米,每代性能提升不超过20%,总体约提升50%。而华为通过高效的超节点系统,提升了芯片算力利用率,在硬件未变的情况下,借助系统工程优化和资源高效调度,一定程度上弥补了芯片工艺的不足。
自2019年起,昇腾不仅深耕芯片等根技术,还持续扩展产业生态,提供易用的软件、工具和平台,推动AI技术与行业场景深度融合。目前,业界已基于昇腾适配和开发超过80个大模型,在基础大模型多个技术方向有积累,如讯飞星火认知、DeepSeek、Qwen等。同时,昇腾联合2700多家行业合作伙伴,共同孵化了6000多个行业解决方案,加速行业智能化进程。
本次参展,华为展台面积超800平方米,除昇腾软硬件能力、训练及推理解决方案和开源开放的软硬件生态外,还携手伙伴展示了互联网、运营商、金融、政务等11大行业的解决方案实践,为与会者提供了深入交流的机会。