由慧与(HPE)为美国能源部旗下的国家可再生能源实验室(NREL)打造的 Kestrel 超级计算机,其规格已正式公布。在 NREL 于去年宣布了该计划之后,现在我们终于知晓它将采用 AMD 霄龙 Genoa、英特尔 Sapphire Rapids、以及英伟达 H100 加速器硬件,并且能够提供高达 44 PFLOPS 的算力。
(via WCCFTech)
在三家科技巨头最新软硬件技术的加持下,Kestrel 旨在接替现有的 Eagle 超算。而在最近的一次会议上,HPE 首次揭示了这套超算系统的硬件规格。
可知Kestrel 超算采用了标准节点 + 加速节点的组合方案,具有 44 PetaFlops 的峰值性能 —— 较 Eagle 超算提升了 5.5 倍。
● 其中标准节点采用了英特尔最新的 Sapphire Rapids 至强可扩展 CPU(本例中为 52 核 / 104 线程的 SKU)。
● 在 2304 个标准节点中,都使用了双路 CPU 方案(总计 4608 颗 Sapphire Rapids-SP 处理器,239616 核 / 479232 线程)。
● 75 PB 数据存储(Lustre),且 2304 个节点中的每一个都提供了 256GB DDR5 内存(总计 560 PB 系统内存)。
另有 132 个加速节点:
● Kestrel 选择了为每个节点配备四路基于 Hopper 图形架构的英伟达 H100 GPU 加速卡 @ AMD 双路 EPYC Genoa 服务器处理器组合。
● 总计有 528 块英伟达 Hopper H100 GPU 加速卡,以及 264 颗 AMD EPYC Genoa 芯片(最高 96C / 192T)。
至于加速节点中的确切 CPU / GPU 配置型号,目前暂不得而知。若采用顶级配置方案,那 Kestrel 有望获得总计 8921088 个 CUDA 核心(H100 SXM5)+ 25344 个 Zen 4 CPU 核心。
此外 Kestrel 加速节点还具有 42 TB 的 HBM3 高带宽缓存 + 20 TB 系统内存,辅以 8 个 DAV 节点(其中包括多达 16 路英伟达 A40 GPU 加速卡)。
所有这些都使用了 HPE 的 Slighshot Dragonfly 互连方案,以下是 HPE Slingshot 互连的一些亮点:
● 行业领先的性能与可扩展性
● 采用 100GbE 和 200GbE 高速接口
● 搭配高基数、64 端口、12.8 Tb/s 带宽的高性能交换机
● 可扩展至 25 万+主机端口 / 最多 3 个跃点
● 创新的硬件拥塞管理、自适应路由与 QoS 服务质量控制
● 采用标准的以太网协议,辅以优化的高性能计算(HPC)特性
● 链路级重试与低延迟前向纠错
● 开放且标准化的 API 管理接口
最后,尽管 Kestrel 超算的每瓦特性能为 10.4 gflops(远不及最近宣布的能效超 50 gflops/watt 的 Frontier 超级计算机),但其造价依然相当昂贵(甚至高于 ExaFlops 系统)。
如若一切顺利,NREL 的 Kestrel 超级计算机预计可在 2024 年完成部署。