上周,Microsoft Azure 的英伟达"Blackwell"GB200 系统测试开机,该预览版显示,数据中心中的机架实际上只有三分之一用于放置计算元件,其余三分之二用于放置冷却舱,以冷却数十个 GB200 GPU 产生的巨大热量。 今天,Google在 10 月 30 日举行的Google云应用开发峰会(Google Cloud App Dev & Infrastructure Summit)之前,以数字形式展示了自己的部分基础设施。
下面展示的是两个并排而立的机架,它们将英伟达"Blackwell"GB200 NVL卡与Google基础设施的其他部分连接起来。
有一个机架上安装了配电装置、网络交换机和冷却配电装置,所有这些都与计算机架相连,计算机架上安装了电源、GPU 和 CPU 服务器。网络设备一应俱全,并连接到Google的"全球"数据中心网络,也就是Google自己的数据中心结构。
我们不清楚这些机架之间选择的结构连接是什么;为了获得最佳性能,英伟达推荐使用 InfiniBand(Mellanox 收购)。 不过,鉴于Google的基础设施设置不同,可能会使用以太网交换机。
有趣的是,Google的 GB200 机架设计与 Azure 不同,它使用额外的机架空间将冷却剂分配到本地热交换器,即冷却器。我们很想知道Google是否会发布更多有关基础设施的信息,因为Google一直被称为基础设施之王,因为它有能力扩展并保持一切井井有条。