7月11日,Intel在中国举办了Intel AI产品战略暨Gaudi2新品发布会,正式面向中国市场推出第二代深度学习加速器——Habana Gaudi2。Intel Gaudi2加速器不但拥有极高的深度学习性能、效率,最大优势就是极高的性价比,对于中国用户来说堪称大规模部署AI的上佳之选。
Intel执行副总裁兼数据中心与人工智能事业部总经理Sandra Rivera在发布会上表示:“Intel致力于通过为客户提供广泛的硬件选择,并支持开放的软件环境,加速AI技术的发展。凭借包括至强可扩展处理器、Gaudi2深度学习加速器在内的产品组合,Intel正在降低AI的准入门槛,并强化客户在云端通过网络和智能边缘部署这一关键业务技术的能力,从而帮助构建中国AI的未来。”
Habana Labs成立于2016年,致力于研发世界一流的AI加速器,满足人工智能、深度学习计算快速发展的需求,创业初期就得到了Intel的投资,2019年12月被Intel正式收购。
Habana的第二代加速器Gaudi2采用台积电7nm工艺制造,集成24个可编程的Tenor张量核心(TPC)、48MB SRAM缓存、21个10万兆内部互连以太网接口(ROCEv2 RDMA)、96GB HBM2E高带宽内存(总带宽2.4TB/s)、多媒体引擎等,支持PCIe 4.0 x16,最高功耗800W。
基于Gaudi2加速器芯片,Intel还设计了夹层卡HL-225B,采用标准的OAM封装接口,方便客户部署与使用。
凭借高性能和高效扩展性,Gaudi2加速器可以满足大规模语言模型、生成式AI模型的强算力需求。
↑↑↑Gaudi2加速器正面实拍
↑↑↑Gaudi2加速器背面实拍(这个角度不多见吧)
Gaudi系列加速器优异的深度学习训练吞吐量、推理速度性能,已经得到了业界领先机构、客户的普遍认可。
比如,正是在第一代Gaudi加速器的加持下,亚马逊EC2 DL1实例相比于在AWS云上运行NVIDIA GPU的同类实例,性价比高出多达40%。
↑↑↑Gaudi2加速器现场演示多语言算法编程
机器学习与人工智能开放产业联盟MLCommons在六月底公布的AI性能基准测试MLPerf Training 3.0的最新结果,更是进一步凸显了Gaudi2加速器的高性能、高性价比,联合Intel第四代至强可扩展处理器,已经成为唯一能够可靠取代NVIDIA GPU的方案。
截止2023年6月,Gaudi2是除了NVIDIA H100 GPU以外,向GPT-3大模型训练基准提交性能结果的解决方案。
测试结果显示,面对要求极为苛刻的、1750亿参数的GPT-3模型,384个Gaudi2加速器上的训练时间仅为311.9分钟,而且从256个加速器到384个加速器,性能扩展幅度达95%,非常接近理想的线性提升。
Stable Diffusion训练上,Gaudi2加速器从1张卡到64张卡,扩展性更是达到了惊人的99%。
此外,在计算机视觉模型ResNet-50(8个加速器)和Unet3D(8个加速器),以及自然语言处理模型BERT(8个和64个加速器)上,Gaudi2都取得了优异的训练结果。
与去年11月提交的数据相比,BERT和ResNet模型的性能分别提高了10%、4%。
值得一提的是,本次MLPerf 3.0的Gaudi2结果以BF16数据类型提交,在四种不同模型上的性能均优于NVIDIA A100,价格更便宜。
第三季度还会发布对FP8数据类型的软件支持与新功能,预计届时Gaudi2的性能将有明显飞跃,预计性价比将超越NVIDIA H100。
Gaudi2加速器还得到了AI与机器学习开源软件供应商Hugging Face的采纳。
其测试结果显示,从预训练BERT (NLP模型)到稳定扩散(流行的多模态模型)推理,再到1760亿参数的大型开源聊天模 BLOOMZ的推理,Gaudi2的表现都领先于NVIDIA A100 GPU。
工欲善其事,必先利其器。为了充分发挥Gaudi2加速器的性能潜力,满足日益增长的生成式AI、大语言模型需求,Intel一直在同步打造高效、成熟的软件支持。
比如说SynapseAI软件套件,针对Gaudi平台深度学习业务进行了优化,可以大大简化模型的开发与迁移,能够将当前基于GPU的模型业务和系统,快速迁移到基于全新Gaudi2的服务器
SynapseAI集成了对TensorFlow、PyTorch框架的支持,并提供众多流行的计算机视觉和自然语言参考模型,能够满足深度学习开发者的多样化需求
生态合作方面,Intel Gaudi2加速器也正在遍地开花。
本次发布会上,美团、百度智能云、浪潮信息均分享了其基于Intel软硬件产品组合的多样化智能业务进展。
比如百度智能云,集成AMX加速引擎的Intel第四代至强可扩展处理器,为ERNIE-Tiny模型带来了多倍的性能优化。
比如浪潮信息,正式发布了全新的AI服务器NF5698G7,6U高度,上层集成八颗Gaudi2加速器,互连总带宽达4.2Tb/s,下层双路56核心第四代至强可扩展MAX处理器,支持AMX、DSA等AI加速器。
整体为全互联拓扑结构,支持业界主流AI框架、开发工具、大模型算法,可满足大模型训练张量并行数百GB/s的通信需求。
该服务器还有极高的扩展性,节点间互连带宽最高达4800Gbps,支持RDMA网络计算和存储通信,并提供多达32条DDR5内存插槽、12条PCIe 5.0 x16扩展插槽。
此外,新华三、超聚变等也都是Intel Gaudi在中国的合作伙伴,生态规模正艺逐步扩大。
↑↑↑可安装八颗Gaudi2加速器
↑↑↑双路四代至强处理器