近日有消息称,华为在其AI基础设施领域取得重要进展,全新推出的CloudMatrix 384超节点已在芜湖数据中心实现规模化部署。据透露,该产品将在今年上半年进一步扩大规模,预计将达到数万台的部署量。

在AI技术快速发展的背景下,算力需求呈现爆发式增长。传统的AI服务器通常由8张算力卡组成一个计算节点,尽管单台服务器内部的算力卡传输效率较高,但不同服务器之间的通信效率却相对低下。这种问题在需要连接成千上万甚至十万级GPU算力卡的大规模集群中尤为突出。

为了解决这一难题,行业正在探索通过高速通信技术将更多算力卡整合到一个超节点内的解决方案。这样不仅能够实现算力卡之间的高效互联和通信,还能显著提升整体算力集群的性能。

2024年3月,英伟达推出了NVL72超节点,将72张训练卡集成在一个超节点中,为万亿参数大型语言模型推理提供了显著的速度提升。而华为此次发布的CloudMatrix 384更进一步,采用了384片昇腾算力卡构建一个超节点,在目前商用的超节点产品中规模最为庞大。

在性能方面,华为CloudMatrix 384展现出色表现。据测试数据显示,在保证单用户20TPS的前提下,其单卡解码吞吐量达到了1920Tokens/s,这一水平可与英伟达H100的部署性能相媲美。同时,该超节点在互联带宽方面实现了突破,使用了6812个400G光模块,提供高达2.8Tbps的卡间互联带宽,并具备快速的断点恢复能力。

尽管国产芯片在单卡性能上与英伟达产品存在差距,但通过多卡集群的方式可以有效缩小这一差距。数据显示,CloudMatrix 384实现了300PFlops的算力规模,较英伟达NVL72的180PFlops提升了67%。

然而,更高的功耗仍然是一个值得关注的问题。一位芯片行业专家指出,在实际应用中,需要关注超节点的算力功耗比以及散热需求。尽管如此,该专家也认为,能够达到与英伟达产品相当水平已充分体现了华为的研发实力。

从市场角度看,随着国内硬件供应能力的提升,CloudMatrix 384的推出标志着中国AI技术发展进入新阶段。其在集群推理方面的优势将为深度学习模型训练提供更高效的算力支持,推动大语言模型应用的进一步落地。