华为首次展出“算力核弹”真机

7月26日，在2025世界人工智能大会（WAIC 2025）现场，华为首次展出的昇腾384超节点真机引发广泛关注，并被评为“WAIC镇馆之宝”。这一“算力核弹”的亮相，不仅展现了华为在算力领域的硬核实力，更凸显了其在AI基础设施建设上的突破性进展。

当前，大模型训练与推理对算力的需求呈爆炸式增长，传统计算架构却因资源利用率低、故障频发等问题，难以支撑AI技术的代际跃迁，对算力集群的系统工程能力提出了更高要求。在此背景下，华为昇腾384超节点的出现颇具意义。

这款超节点由12个计算柜和4个总线柜构成，实现了业界最大规模的384个NPU卡高速总线互联，具备超大带宽、超低时延、超强性能三大优势。与英伟达NVL72等行业超节点方案相比，其最关键的创新在于打破传统以CPU为中心的“主从架构”，提出“全对等架构”。借助高速互联总线的突破，将总线从服务器内部扩展到整机柜乃至跨机柜，实现CPU、NPU、DPU、存储和内存等资源的全互联与池化，去除繁多中转环节，达成真正的点对点互联，进而提升算力密度和互联带宽。

性能上，昇腾384超节点堪称强悍。其算力总规模达300Pflops，是英伟达NVL72的1.7倍；网络互联总带宽达269TB/s，较后者提升107%；内存总带宽达1229TB/s，提升113%；单卡推理吞吐量跃升至2300 Tokens/s。通过最佳负载均衡组网等方案，它还能进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群，为更大规模模型的演进提供支撑。

性能测试数据显示，在昇腾超节点集群上，LLaMA3等千亿稠密模型性能比传统集群提升2.5倍以上；在Qwen、DeepSeek等通信需求更高的多模态、MoE模型上，性能提升可达3倍以上，较业界其他集群高出1.2倍，处于行业领先地位。

华为专家表示，单芯片制程从7纳米到5纳米、3纳米、2纳米，每代性能提升不超过20%，总体约提升50%。而华为通过高效的超节点系统，提升了芯片算力利用率，在硬件未变的情况下，借助系统工程优化和资源高效调度，一定程度上弥补了芯片工艺的不足。

自2019年起，昇腾不仅深耕芯片等根技术，还持续扩展产业生态，提供易用的软件、工具和平台，推动AI技术与行业场景深度融合。目前，业界已基于昇腾适配和开发超过80个大模型，在基础大模型多个技术方向有积累，如讯飞星火认知、DeepSeek、Qwen等。同时，昇腾联合2700多家行业合作伙伴，共同孵化了6000多个行业解决方案，加速行业智能化进程。

本次参展，华为展台面积超800平方米，除昇腾软硬件能力、训练及推理解决方案和开源开放的软硬件生态外，还携手伙伴展示了互联网、运营商、金融、政务等11大行业的解决方案实践，为与会者提供了深入交流的机会。

华为首次展出“算力核弹”真机

媒体生活更多>>