5月19日消息,据外媒Techcrunch报道,在19日上午的一场线上活动中,Facebook 母公司Meta首度公开了其自研 AI 芯片的进展,可以支持其最近推出的广告设计和创作工具的生成式 AI技术。
△Meta CEO扎克伯格展示首款自研AI芯片MTIA
Meta基础设施副总裁 Alexis Bjorlin表示:“构建我们自己的 [硬件] 功能使我们能够控制堆栈的每一层,从数据中心设计到培训框架。需要这种水平的垂直整合才能大规模突破人工智能研究的界限。”
首款自研AI芯片MTIA
在过去十年左右的时间里,Meta 花费了数十亿美元来招募顶级数据科学家并构建新型人工智能,包括现在为发现引擎、审核过滤器和遍布其应用程序和服务的广告推荐器提供支持的人工智能。但该公司一直在努力将其许多雄心勃勃的 AI 研究创新转化为产品,尤其是在生成式 AI 方面。
自 2016 年以来,头部的互联网厂商都在积极的自研云端AI芯片。Google 一直在设计和部署称为 Tensor Processing Units(TPU)的自研AI芯片,用于训练生成式 AI 系统如 PaLM-2、Imagen 等;亚马逊则向 AWS 客户提供 AWS Trainium、AWS Inferentia 两款自研芯片进行应用。传闻微软也传出正与 AMD 合作开发一款名为 Athena 的 AI芯片。
此前,Meta 主要使用第三方的 CPU 和专为加速 AI 算法而设计的定制芯片的组合来运行其 AI 工作负载——CPU 在处理这类任务时的效率往往低于 GPU。为了扭转局面,Meta 在2020年开发了其第一代基于7nm工艺的自研AI芯片 MTIA(MTIA v1)。
Meta 将该AI芯片称为 Meta Training and Inference Accelerator,简称 MTIA,并将其描述为加速 AI 训练和推理工作负载的AI芯片“家族”的一部分。MTIA 是一种 ASIC,一种将不同电路组合在一块基板上的芯片,允许对其进行编程以并行执行一项或多项任务。
“为了在我们的重要工作负载中获得更高水平的效率和性能,我们需要一个与模型、软件堆栈和系统硬件协同设计的定制解决方案,以使得各种服务为我们的用户提供更好的体验。”Bjorlin解释说道。
据介绍,MTIA v1基于 7 纳米工艺,可以从其内部 128 MB 内存扩展到高达 128 GB。Meta表示,MTIA可以专门用于处理与 AI 推荐系统相关的工作,帮助用户找出最佳贴文内容并更快呈现在用户眼前,其计算性能和处理效率都胜过 CPU。另外,在 Meta 设计的基准测试中,MTIA处理“低复杂性” ”和“中等复杂度”的 AI 模型也比 GPU 更高效。
Meta 表示,MTIA芯片的内存和网络领域仍有一些工作要做,随着 AI 模型规模的增长,这会出现瓶颈,需要将工作负载分配到多个芯片上。(为此,Meta 最近收购了位于奥斯陆的英国芯片独角兽 Graphcore 的 AI 网络技术团队。)目前,MTIA 的重点完全放在 Meta 应用程序系列“推荐工作负载”的推理上,而不是训练上。
Meta 强调,它将继续改进的MTIA ,在运行推荐工作负载时“大大”提高了公司在每瓦性能方面的效率——反过来允许 Meta 运行“更加增强”和“尖端”人工智能工作负载。
根据计划,Meta 将在 2025 年正式推出自研的MTIA芯片。
Meta的AI超级计算机RSC
报道称,Meta原本计划在2022 年大规模推出其自研的定制AI芯片,但最终却推迟了,转而为其超级计算机 Research SuperCluster (RSC) 订购了价值数十亿美元的 NVIDIA GPU,这需要对其多个数据中心进行重大重新设计。
据介绍,RSC 于 2022 年 1 月首次亮相,与 Penguin Computing、NVIDIA 和 Pure Storage 合作组装而成,已经完成了第二阶段的扩建。Meta 表示,它现在包含总共 2,000 个 NVIDIA DGX A100 系统,配备 16,000 个 NVIDIA A100 GPU。
虽然,目前RSC的算力已经落后于微软和Google的AI超级计算机。比如,Google宣称其专注于人工智能的超级计算机拥有 26,000 个 NVIDIA H100 GPU。但是,Meta 表示 ,RSC 的优势是允许其研究人员使用 Meta 生产系统中的真实示例来训练模型。这与该公司之前的 AI 基础设施不同,之前仅利用开源和公开可用的数据集。
“RSC AI 超级计算机用于在多个领域推动 AI 研究的边界,包括生成式 AI。”Meta 发言人称:“这真的关系到人工智能研究的生产力。我们希望为 AI 研究人员提供最先进的基础设施,使他们能够开发模型并为他们提供培训平台以推进 AI 发展。”
Meta称,在其巅峰时期,RSC 可以达到近 5 exaflops 的计算能力,这使其成为世界上最快的计算能力之一。
Meta使用 RSC 来训练 LLaMA,这是“大型语言模型Meta人工智能”的首字母缩写词。Meta 表示,最大的 LLaMA 模型在 2,048 个 A100 GPU 上进行了训练,耗时 21 天。
“构建我们自己的超级计算能力使我们能够控制堆栈的每一层;从数据中心设计到培训框架,”Meta发言人补充道:“RSC 将帮助 Meta 的 AI 研究人员构建新的更好的 AI 模型,这些模型可以从数万亿个示例中学习;跨数百种不同的语言工作;一起无缝分析文本、图像和视频;开发新的增强现实工具;以及更多。”
未来,Meta或将自研的AI芯片MTIA导入RSC当中,以进一步提升其AI性能。
面向视频处理的AI芯片MSVP
除了 MTIA之外,Meta还在自研另一款被称为 Meta Scalable Video Processor(MSVP)的 AI芯片,主要面向持续成长的满足视频点播和直播流媒体的数据处理需求,Meta最终希望将大部分成熟且稳定的影音内容处理工作交由 MSVP 执行。
其实,Meta 多年前就开始构思定制服务器端视频处理芯片,并宣布在 2019 年推出用于视频转码和推理工作的 ASIC。这是其中一些努力的成果,也是对竞争优势的新推动。特别是视频直播领域。
“仅在 Facebook 上,人们就将 50% 的时间花在观看视频上,”Meta 技术主管 Harikrishna Reddy 和 Yunqing Chen 在19日上午发表的一篇博客文章中写道:“为了服务于世界各地的各种设备(移动设备、笔记本电脑、电视等),上传到 Facebook 或 Instagram 的视频被转码为多个比特流,具有不同的编码格式、分辨率和质量……MSVP是可编程和可扩展的,并且可以配置为有效地支持 VOD 所需的高质量转码以及实时流媒体所需的低延迟和更快的处理时间。”
△MSVP
Meta 表示,它的计划是最终将大部分“稳定和成熟”的视频处理工作负载卸载到 MSVP,并仅对需要特定定制和“显着”更高质量的工作负载使用软件视频编码。Meta 说,使用智能降噪和图像增强等预处理方法以及伪影去除和超分辨率等后处理方法,我们将继续使用 MSVP 提高视频质量。
“在未来,MSVP 将使我们能够支持更多 Meta 最重要的用例和需求,包括短视频——实现生成式 AI、AR/VR 和其他元宇宙内容的高效交付。”Reddy 和 Chen 说。