AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机

英伟达（NVIDIA）一直是数据中心最主要的 GPU 供应商，这已不是什么秘密，但现在随着需求的增长，AMD 很有可能成为这一市场的有力竞争者。最近，一位客户找到 AMD，要求创建一个由 120 万个 GPU 组成的人工智能训练集群。这有可能使它比目前速度最快的超级计算机 Frontier 还要强大 30 倍。2023 年，AMD 供应的数据中心 GPU 还不到 2%。

AMD 数据中心解决方案总经理 Forrest Norrod 在接受The Next Platform 采访时透露，他们收到了客户关于使用 120 万个 GPU 构建人工智能训练集群的真实询问。从这个角度来看，目前的人工智能训练集群通常使用数千个 GPU，通过高速互连连接到多个本地服务器机架上。

目前正在考虑的人工智能开发规模是前所未有的。诺罗德说："正在筹建的一些训练集群确实强大得令人匪夷所思。事实上，目前已知用于训练人工智能模型的最大超级计算机是Frontier，它拥有37888个Radeon GPU，这使得AMD潜在的超级计算机比Frontier强大30倍。"

当然，事情没那么简单。即使以目前的功率水平，在创建人工智能训练集群时也有大量隐患需要考虑。人工智能训练需要较低的延迟来提供及时的结果，需要消耗大量的电能，而且必须考虑到硬件故障，即使只有几千个 GPU 也不例外。

大多数服务器的利用率在20%左右，并在远程机器上处理数千个小型异步作业。然而，人工智能培训的兴起正在导致服务器结构发生重大变化。为了跟上机器学习模型和算法的发展，人工智能数据中心必须配备专门为这项工作设计的大量计算能力。人工智能训练本质上是一项大型同步作业，需要集群中的每个节点尽可能快地来回传递信息。

最有趣的是，这些数据来自 AMD，而 AMD 在 2023 年的数据中心 GPU 出货量中只占不到 2%。而占据另外 98% 市场份额的 NVIDIA 则对客户要求其开发的产品守口如瓶。作为市场领导者，我们只能想象他们正在开发什么。

虽然拟议中的 120 万 GPU 超级计算机可能看起来有些离谱，但诺罗德称，"非常清醒的人"正在考虑在人工智能训练集群上花费多达千亿美元。这并不令人震惊，因为在过去几年里，人工智能在科技界的发展可谓突飞猛进。看来，企业已经准备好在人工智能和机器学习上投入巨资，以保持竞争力。

对文章打分

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机

最新资讯

编辑精选

热门评论

相关文章

技嘉三款AMD RX 9070/XT显卡已上架官网只待正式开售

抢攻英伟达中端市场 AMD旗舰显卡被曝本月底正式亮相

AMD称英特尔的糟糕产品导致9800X3D需求量超预期然后供应短缺

AMD RDNA 4 GPU实物首曝尺寸果然小得多

AMD认为在Ryzen X3D的所有CCD上配备3D V-Cache并不经济

RX 9070首个游戏成绩来了和4080Super打平手

Top 10

王国辉：只需要一家中国公司成功开发出EUV光刻机那么“芯片战争就会结束”

华为首款SSD上线京东：明天开售 1TB 499元

刀郎“击败”周杰伦，暴露了一个隐秘的角落

2025年贺岁纪念钞、纪念币今晚预约抢到赚500元

王国辉：只需要一家中国公司成功开发出EUV光刻机那么“芯片战争就会结束”

北大韦神板书曝光：果然数学的尽头是英语一句中文也没有