在今日的Hot Chips 2024大会上,英伟达公布了下一代GPU架构Blackwell的更多细节信息,以及未来的产品路线图。会议期间,英伟达架构总监Ajay Tirumala和Raymond Wong对Blackwell平台进行了初步介绍,并解释了这些技术如何协同工作,在提高能源效率的同时为AI和加速计算性能提供新的标准。
为Blackwell做好准备
英伟达Blackwell是通用计算全栈矩阵的终极解决方案,由多个英伟达芯片组成,包括Blackwell GPU、Grace CPU、BlueField数据处理单元、ConnectX网络接口卡、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。
它涵盖了从CPU和GPU计算,到用于互连的不同类型的网络。这是芯片到机架和互连,而不仅仅是GPU。它是有史以来单个GPU所拥有的最强AI计算、内存带宽和互连带宽。通过使用高带宽接口(NV-HBI),可在两个GPU芯片之间提供10TB/s的带宽。
此外,英伟达还引入了新的FP4和FP6精度。降低计算精度是提高性能的一种众所周知的方法。通过英伟达的Quasar量化系统,可以找出哪些方面可以使用较低的精度,从而减少计算和存储。英伟达表示,用于推理的FP4在某些情况下可以接近BF16性能。
NVLink交换机芯片和NVLink交换机托盘(tray)旨在以更低的功耗推送大量数据。英伟达演示了GB200 NVL72和NVL36。其中,NVL72包含36个Grace GPU和72个Blackwell GPU,专为万亿参数AI而设计。GB200 NVL 72作为一个统一系统,对大语言模型(LLM)推理性能提升高达30倍,释放了实时运行数万亿个参数模型的能力。
英伟达表示,随着AI模型尺寸的增加,在多个GPU上拆分工作负载势在必行。而Blackwell足够强大,可以在一个GPU中处理专家模型。
最后,英伟达还展示了2024年至2028年的产品路线图。2026年的1.6T ConnectX-9似乎表明了英伟达对PCIe Gen7的需求,因为PCIe Gen6 x16无法处理1.6T的网络连接。
Blackwell的技术突破
今年3月,英伟达在GTC 2024开发者大会上发布了新的GPU架构Blackwell。Blackwell得名于美国数学家David Blackwell,是英伟达最新一代的AI芯片与超级计算平台。与Grace数据中心CPU、新一代网络芯片等产品一起,面向生成式AI共同组成完整解决方案。
英伟达称,Blackwell拥有6项革命性技术,可支持多达10万亿参数的模型进行AI训练和实时大语言模型(LLM)推理。
1.全球最强大的芯片:Blackwell架构GPU拥有2080亿个晶体管,确保了芯片具有极高的计算能力和复杂性;采用台积电4纳米工艺制造,提高了芯片的集成度,降低了功耗和发热量;配备192GB的HBM3E显存,极大提升了芯片的数据处理能力和效率。
2.第二代Transformer引擎:结合Blackwell Tensor Core技术和TensorRT-LLM和NeMo Megatron框架中的英伟达先进动态范围管理算法,Blackwell将通过新的4位浮点AI支持双倍的计算和模型大小推理能力。
3.第五代NVLink:为提高数万亿参数和混合专家AI模型的性能,最新一代英伟达NVLink为每个GPU提供了突破性的1.8TB/s的双向吞吐量,确保最复杂LLM之间多达576个GPU之间的无缝高速通信。
4.RAS引擎:Blackwell支持的GPU包含一个专用引擎,实现可靠性、可用性和服务性。此外,Blackwell架构还增加了芯片级功能,利用基于AI的预防性维护进行诊断和预测可靠性问题。这可以最大限度地延长系统正常运行时间,并提高大规模部署AI的弹性。
5.安全人工智能:先进的机密计算功能可在不影响性能的情况下保护AI模型和客户数据,并支持新的本机接口加密协议,进一步增强了芯片的安全性。
6.解压缩引擎:专用解压缩引擎支持最新格式,加快数据库查询,提供数据分析和数据科学的最高性能。
英伟达CEO黄仁勋称,Blackwell不只是芯片,而是一个全新的平台。它将是英伟达历史上、乃至整个计算机历史上最成功的产品。
Blackwell的市场影响
Blackwell架构的推出受到了全球各大云提供商、服务器制造商以及头部AI企业的青睐,如亚马逊、谷歌和微软等。英伟达表示,Blackwell正在被全球各大云服务提供商采用。同时,AI公司、电信提供商和一系列其他技术企业也有着强劲的需求。
Blackwell的发布预示着AI的又一个突破时刻的到来,一经发布便得到了微软CEO萨蒂亚·纳德拉(Satya Nadella)、Alphabet CEO桑达尔·皮查伊(Sundar Pichai)、亚马逊CEO安迪·贾西(Andy Jassy)、OpenAI CEO萨姆·奥特曼(Sam Altman),以及其他知名科技领袖和名人的支持。
至关重要的是,Blackwell是一个更大的生态系统战略的一部分。黄仁勋称:“Blackwell不仅是系统的核心芯片,它实际上还是一个平台。它基本上就是一个计算机系统。”
Nvidia还将使用Blackwell来提升其在软件领域的地位和雄心。领先的AI开发商已经依赖Nvidia的CUDA软件来创建由该公司处理器驱动的应用程序,而高性能Blackwell处理器的吸引力应有助于确保客户继续使用其软件。
该战略甚至延伸得更远。黄仁勋在GTC的一次会议上称:“你可以制造芯片让软件运行得更好,但没有软件你就无法创造一个新的市场。我们的独特之处在于,我相信我们是唯一一家能够创造自己市场的芯片公司。”
随着基于Blackwell架构的GPU GB200的发布,英伟达似乎正在为创建新类别的AI软件应用程序打开大门。反过来,此类软件的推出、扩展和持续发展可能会对其超高端GPU产生更大的需求。
Blackwell的延迟
本月初有报道称,英伟达的下一代Blackwell系列AI芯片因设计缺陷问题被迫推迟发布,这一决定可能对包括Meta、谷歌和微软在内的大客户造成影响。
据悉,Blackwell芯片的大规模生产原计划于今年第三季度开始,并于第四季度开始交付。但道,在准备大规模生产时,台积电的工程师发现了设计问题,导致生产受阻。
报道称,由于台积电封装技术CoWoS的复杂性,英伟达将推迟Blackwell GPU的出货时间至2025年第一季度。
瑞银(UBS)分析师认为,英伟达首批Blackwell芯片最多延迟4~6周出货,即推迟到2025年1月底。为此,许多客户会改而采购交货时间短的H200芯片。
而摩根士丹利的分析师相对乐观,认为Blackwell芯片的生产仅会暂停约两周,并可在2024年第四季度通过台积电的努力赶上进度。
整体而言,分析师认为有关Blackwell芯片推迟上市的担忧可能被夸大了,预计这不会对英伟达的营收或需求产生重大影响。
英伟达CEO黄仁勋表示,Blackwell GPU的研发预算约为100 亿美元,上市后单价会在3~4万美元。鉴于当前训练和部署AI的强劲需求,该价格也并未超出市场预期。
“反英伟达”联盟
包括Alphabet、高通和英特尔在内的公司正在联手创建一个组织“UXL基金会”,旨在阻止英伟达在AI领域建立无可争议的主导地位。
UXL基金会旨在创建一个软件套件,帮助在更广泛的处理器上运行AI应用程序,并减少对英伟达平台的依赖。
据报道,UXL基金会目前正在招募微软、亚马逊和其他有影响力的科技公司。因此,尽管许多科技界的知名人士对Blackwell的能力感到兴奋,但可以理解的是,人们对更广泛的AI领域过度依赖英伟达的生态系统持抵制态度。
在某种程度上,UXL基金会的成立说明了英伟达目前的竞争地位有多强。该公司在用于AI和其他加速计算应用的GPU市场上占据了大约90%的份额,而Blackwell的推出可能有助于它继续保持甚至扩大其主导地位。
与不断扩大的专用软件工具相结合,英伟达正在重塑AI领域,而其竞争对手和潜在竞争对手还有很多工作要做。