在其I/O开发者大会上,Google今天宣布公开预览Google Cloud的Cloud TPU v4 Pods完整集群。Google在去年的I/O大会上推出了其Tensor处理单元的第四次迭代,一个TPU Pod由4096个这样的芯片组成。每个芯片的峰值性能为275 teraflops,每个pod承诺的综合计算能力1.1 exaflops。
Google现在在其俄克拉荷马州的数据中心运营着一个由八个这样的Pod组成的完整集群,其峰值聚合性能达9 exaflops。Google认为就累积计算能力而言,这是世界上最大的公开可用的ML中心,同时以90%的无碳能源运行。
那些集群是由具有ML(机器学习)能力的超级计算机提供的(意味着它们非常适合ML工作负载,如NLP、推荐模型等。这些超级计算机是使用ML硬件--例如GPU(图形处理单元)以及CPU和内存构建的。凭借9 exaflops,我们相信我们拥有最大的公开可用的ML集群。
在2021年的I/O大会上,Google的首席执行官Sundar Pichai说,公司很快就会有"几十个TPU v4 Pods在我们的数据中心上线,其中许多将以90%或接近90%的无碳能源运行。而我们的TPUv4 Pods将在今年晚些时候提供给我们的云客户"。显然,这比计划的时间要长一些,但考虑到背景是我们正处于全球芯片短缺的情况下,这些毕竟是定制芯片。
在今天的发布之前,Google与研究人员合作,让他们接触这些集群。研究人员回馈称对TPU v4以其快速的互连和优化的软件栈提供的性能和可扩展性感到满意,并喜欢用新的TPU VM架构设置他们自己的互动开发环境的能力,以及使用他们首选框架的灵活性,包括JAX、PyTorch或TensorFlow,
Google表示,用户将能够对新的云TPU v4集群和它的Pod进行切割,以满足他们的需求,无论是访问四个芯片(这是TPU虚拟机的最低限度)还是数千个芯片(但也不能太多,因为只有这么多芯片可以用)。
截至目前,这些集群只在俄克拉荷马州提供。"我们对各种地点进行了广泛的分析,并确定俄克拉荷马州,以其特殊的无碳能源供应,是托管这种集群的最佳地点。我们的客户几乎可以从任何地方访问它,"一位发言人解释说。