值得一提的是,英伟达在今年3月发布了“Blackwell”系列,预计将于今年晚些时候量产,根据英伟达的说法,B200 在某些任务上的速度比其前代产品快 30 倍,以此成为目前最顶级的AI芯片之一。
这款新的特供旗舰芯片与B200也不无关系,消息人士称,英伟达将与其在中国的主要分销合作伙伴之一浪潮集团合作,推出和分销这款暂定名为“B20”的芯片,从命名来看,其可能具备了B200的一部分特性。
算上这款B20,在短短1年多时间里,英伟达已经给中国市场推出七八款特供芯片了。
A800和H800
2022年10 月 7 日,美国政府宣布了一系列出口管制措施,其中包括切断某些半导体芯片和芯片制造设备对中国的供应。
其中除了影响光刻机等生产设备外,还限制了中国获得先进制程下的高算力、人工智能芯片,既包括禁止英伟达、AMD等美国公司向中国销售此类芯片,也包括限制中国人工智能芯片公司在美国技术下的海外Fab厂进行流片等。
在这一出口限制下,英伟达和AMD都受到了波及。
英伟达在限制出台后表示,该禁令影响了其旨在加速机器学习任务的 A100 和 H100 芯片,可能会妨碍2022年将发布的旗舰芯片 H100 的开发完成。其指出,当季度受影响芯片在中国的销售额已达 4 亿美元,如果中国公司决定不再购买英伟达的替代产品,那么这笔钱就会白白流失。
那么美国的出口限制具体是怎么限制英伟达芯片的呢?
根据美国商务部2022年10月7日文件中对先进计算集成电路的出口限制规则(ECCN 3A090 和 4A090),管制物品清单需要满足以下的几个条件:
a. 除易失性存储器外,所有输入和输出的总双向传输速率达到或可编程达到 600 GB/s 或以上的集成电路,以及下列任何一种集成电路:
a.1. 一个或多个执行机器指令的数字处理器单元,其每个操作的位长乘以以 TOPS 为单位的处理性能,所有处理器单元的总和为 4800 或以上;
a.2. 一个或多个数字"原始计算单元"(不包括协助执行与计算 3A090.a.1 的 TOPS 有关的机器指令的单元),其每次运算的位长乘以所有计算单元合计的 TOPS 处理性能为 4800 或以上;
a.3. 一个或多个模拟、多值或多级"原始计算单元",其处理性能以 TOPS 乘以 8 计算,所有计算单元合计达到或超过 4800;
a.4. 数字处理器单元及"原始计算单元"的任何组合,其按3A090.a.1、3A090.a.2及3A090.a.3计算的总和达4800或以上。
3A090.a.所述的集成电路包括图形处理单元(GPU)、张量处理单元(TPU)、神经处理器、内存处理器、视觉处理器、文本处理器、协处理器/加速器、自适应处理器、现场可编程逻辑器件(FPLD)及专用集成电路(ASIC)。
不难看出,其中最重要的,就是对芯片互联速度的限制,按照这一规定,英伟达当时热卖的A100精准地落入了限制范围内,它的芯片间传输速率达到了600GB/s,从某种程度上看,或许美国商务部就是根据A100来指定这项限制措施的。
为了应对出口管制,英伟达以迅雷不及掩耳之势,火速阉割出了一个A100的替代品——A800,美国禁令正式发布是在2022年10月7日,而一个月后,英伟达就拿出了适应新规的A800,可谓是古有因地制宜,今有因策制宜。
根据规格,NVIDIA A800 将采用与 Ampere A100 GPU 相同的芯片架构。它将提供三种版本,两种 PCIe 版本分别为 40 GB 和 80 GB,以及80 GB的SXM 版本,这些 GPU 将提供高达 9.7 TFLOP 的 FP64、19.5 TFLOP 的 FP64 Tensor Core、19.5 TFLOP 的 FP32、156 TFLOP(稀疏性为 312 TFLOP)TF32、312 TFLOP(稀疏性为 624 TFLOP)BFLOAT16 和 624 TOPS(稀疏性为 1248 TOP)INT8 性能。40 GB 版本具有高达 1.555 TB/s 带宽的 HBM2 内存,而 80 GB 版本具有高达 2 TB/s 带宽的 HBM2e。
当然带宽上为了满足限制需求,无可避免地挨了一刀,从原来的600GB/s砍到了400GB/s,英伟达发言人在给路透社的一份声明中表示:“A800 GPU 于第三季度投入生产,是中国客户可替代 A100 GPU 的另一种产品,A800 符合美国政府关于减少出口管制的明确测试,并且无法通过编程超越该标准。”
CCS Insight 分析师 Wayne Lam评论道:“A800 看起来是重新包装的 A100 GPU,旨在避开近期商务部的贸易限制”,同时他指出 8 在中国是一个幸运数字。
“中国是英伟达的一个重要市场,重新配置产品以避免贸易限制具有充分的商业意义,”Lam 表示,他表示,对于使用数千个芯片的数据中心来说,A800 的芯片间通信能力明显下降。
在随后的H100上面,英伟达如法炮制,搞出了H800。在 A100 上,英伟达NVIDIA 将 GPU 的 600 GB/s互连降至 400 GB/s,其对 H100 采取了相同的做法。据透露,H800 的芯片互联速率降低到 H100 的一半左右,也就是从800 GB/s降低到400 GB/s。与A800 相比,H800性能的影响更大,毕竟前者只是降低33%,后者降低了整整50%。
在当时,英伟达发言人拒绝透露针对中国市场的 H800 与 H100 有何不同,只是说“我们的 800 系列产品完全符合出口管制规定”。
在海外厂商疯狂采购A100和H100的时候,国内厂商只能选择配置更低的H800和A800,英伟达的特供版芯片一定程度上限制了国内AI大模型的发展。
H20和RTX 4090D
对于国内公司来说,A800和H800有好有坏,坏的是在割了一刀互联带宽后,这两块芯片的性能表现差了一点,训练速度也变慢了不少,好的是它们都可以通过征程渠道订购,只是相较于国外公司,在芯片上花费的成本会更高一些。
但A800和H800也没活过一年。2023年10月17日,美国商务部发布了新的管制规则,对 2022 年 10 月 7 日发布的针对先进计算集成电路、半导体制造设备以及支持超级计算应用和最终用途的物品的出口管制进行了补充更新。
其中最主要的部分是控制参数的变化,暂行最终规则删除了“互连带宽”作为 ECCN 3A090 下识别受限芯片的参数,而是改为如果芯片超过 ECCN 3A090 中标定的两个参数(3A090.a和3A090.b)之一,出口就会受到限制。
根据美国商务部的文件,修订后的 3A090.a 管制参数将管制具有一个或多个数字处理单元的集成电路,而这些单元的“总处理性能”需要在4800 或以上,或“总处理性能”为 1600 或以上,而“性能密度”为 5.92 或以上。新的 ECCN 3A090.b 将管制具有一个或多个数字处理单元的集成电路,这些单元必须具备以下条件之一:“总处理性能”为 2400 或 2400 以上但小于 4800,“性能密度”为 1.6 或 1.6 以上但小于 5.92,或“总处理性能”为 1600 或 1600 以上,“性能密度”为 3.2 或 3.2 以上但小于 5.92。
此外,规则还设定了一个许可例外情况,其为人工智能功能低于限制阈值的消费级 IC 创建了新的“许可例外通知高级计算”,该例外适用于两种产品,一种是设计或销售用于数据中心的芯片,第二种是并非为数据中心使用而设计或销售的芯片,其“总处理性能”为 4800 或更高。
与 2022年10 月 7 日的规则相比,新规则再一次扩大了管制范围,在总处理性能和性能密度的双重规则之下,不管是没阉割的还是阉割了的,统统被纳入到了出口管制范围,A800和H800受当其冲,而英伟达其他产品也受到了影响,面向推理市场的L40、L40S,以及消费领域的RTX 4090也被纳入了禁售范围。
这对于英伟达来说是一记重创,意味着当时英伟达在售的主流产品,都因出口管制而不能在中国销售,要知道在往年,来自中国市场的数据中心业务收入贡约占英伟达整体营收的20%至25%,而在2024财年第四季度,由于一纸出口管制,中国市场营收暴跌至个位数。
无奈的英伟达只能再度挥起砍刀。
2023年11月16日,也就是新规则发布一个月后,英伟达又推出了特供中国市场的GPU芯片——H20、L20、L2,H20基于英伟达的Hopper架构,而L20和L2基于Ada架构。
其中L20和L2这两块芯片分别基于L40和L4进行了调整,由于是老架构,外加推理和训练中并不常用,并没有受到多少关注。而H20就比较有意思了,尽管由于新规不再限制互联速度,其获得了900GB/s满血NVLink,但性能却要打一个大大的折扣,据分析师Dylan Petal的意见,即使H20的实际利用率能达到90%,其在实际多卡互联环境中的性能仍只能接近H100的50%。
而针对消费市场的RTX 4090,英伟达在去年12月也推出了平替——RTX 4090D,这款符合美国出口管制的特供芯片在 CUDA 内核和功耗两个方面进行了阉割,CUDA 内核减少了 12.8%,功耗也从 450W 减少到 425W,降低了 5.9%,所有其他核心规格都保持不变。
由于主频的略微提升,在一些基准测试中,4090D的性能仅比4090低了5%左右,对比AI芯片,这样的差距似乎还在可接受范围内。
2023年年底这一连四款特供芯片,一定程度上缓解了英伟达中国的尴尬,让它不至于陷入无货可卖的境地,但两轮限制之后,大型企业和中小型公司,都开始另谋出路,要么买国内芯片,要么在海外组建服务器,要么,通过非官方渠道来买H100/200和A100,无奈在国内厂商之中蔓延。
老黄的刀法
熟悉游戏GPU的DIY玩家,对老黄的刀法不会感到太陌生。
拿比较近的例子来说,在RTX 20系列发布一年后,为了更好地区分产品线,同时应对隔壁AMD的RX5000系列的新品上市,英伟达推出了RTX 20 Super系列。
虽然同样是基于TU106和TU104核心,但是英伟达却用这两颗核心割出了五款显卡,分别是RTX 2060、RTX 2060 Super、RTX 2070、RTX 2070 Super和RTX 2080,其中差距最小的就是同为TU106核心的RTX 2060 Super和RTX 2070,这两者理论上的性能差距只有5%左右,实际跑分和游戏测试也非常接近,可以说英伟达把阉割这件事玩到了极致。
如今英伟达修修改改拿出来的中国特供版芯片,也不过是旧事重演,重操旧业罢了。
除了我们在开头就提到的B20,英伟达接下来还打算在消费市场一展刀法,据爆料,RTX 5090的缩水版RTX 5090D 预计将于 2025 年 1 月推出,预计将基于 NVIDIA 的Blackwell 架构,采用台积电的 4NP 工艺,或在核心规格上有所缩减,从而规避美国的出口限制。
算上这两块传闻中的芯片,英伟达在中国已经有一个庞大的特供阵容:A800、H800、H20、L20、L2、RTX 4090D、B20、RTX 5090D,
有人对这些特供版芯片前景颇为看好,研究机构 SemiAnalysis 估计,英伟达今年有望在中国销售超过 100 万块 H20 芯片,价值超过 120 亿美元。
但英伟达要担心的事情还有很多。据Jeffries分析师的报告,当美国在10月份对半导体出口管制进行年度审查时,“很有可能”禁止英伟达的 H20 芯片向中国销售,该分析师表示,禁令可能通过“特定产品禁令、降低计算能力上限和/或限制内存容量”来实施。
此外,像H20这样人为制造出来的合规卡,本质上是基于既有核心的阉割,B20也是如此,原本可以用来做H200和B200的核心,现在只能拿来卖更便宜的特供版,而且销售寿命很可能只有一年多,怎么看都是一笔亏本买卖。
但英伟达别无退路,规则和市场这座天平,它只能竭尽自己所能来配平,只不过中国还有多少企业愿意为割了又割的特供版芯片掏钱呢?