微软已经为深度学习优化库 DeepSpeed 申请了商标保护。该商标于2020年12月8日提交,其中提到“为人工智能处理和深度学习提供临时使用的在线不可下载的计算机软件”,这表明微软可能在考虑通过在线云服务提供 DeepSpeed。
该库于今年 2 月发布,可以在适度的硬件上训练大规模的人工智能模型。它只需要使用 800 块 Nvidia V100 显卡就可以创建具有万亿参数的深度学习模型,是目前世界上最大的模型的 5 倍多。如果没有DeepSpeed,同样的任务需要 4000 块 Nvidia A100(性能比 V100 快2.5倍),而且事件缩短了 100 多天。
在 GPT-3 显示模型在神经网和数据集越大的情况下继续改进后,这个工具特别有用。然而,这确实有可能将最新的创新推到资源较少的小型团队的范围之外,但DeepSpeed已经允许这些团队以最小的硬件与更大的服务竞争。转移到云处理可能会使大型模型AI训练更容易获得。