马斯克周二在其社交网络 X 上发帖称,他的公司 xAI 决定建立一个内部训练 AI 模型的系统,因为“我们的基本竞争力取决于比任何其他 AI 公司都更快。
据多位参与谈判的人士透露,xAI和甲骨文已经结束了扩大现有协议的谈判,谈判因时间表和电力供应问题分歧而破裂。根据现有协议,xAI一直从甲骨文租用英伟达的AI芯片。xAI已经签订了一项合作,在甲骨文云服务平台Gen2 Cloud上训练AI模型。现在,xAI正购买芯片在田纳西州孟菲斯市自主建立一座数据中心。
xAI原本正与甲骨文磋商一项从甲骨文租用英伟达处理器的多年协议,目的是把这些处理器用于计划中的超级计算机,但谈判因一些问题而受阻,例如马斯克要求建造一台速度更快的超级计算机,这让甲骨文感觉难以做到。而且,甲骨文还担心xAI首选的地点电力供应不足。
甲骨文与xAI所讨论的具体处理能力已外包给另一家客户。xAI已经从甲骨文租用了大约1.6万颗英伟达芯片。马斯克计划构建一个使用10万颗英伟达GPU驱动的超级计算机,用于训练Grok 3.0大模型。但是,甲骨文已经与微软签署了一项协议,为OpenAI提供由英伟达芯片驱动的服务器,这笔交易涉及10万颗即将推出的GB200芯片。
马斯克在X上发文回应称,xAI正在使用英伟达的H100图形处理器自行构建一个系统,从而“以最快的时间完成”。“xAI从甲骨文订购了2.4万个H100处理器,用于训练了Grok 2。Grok 2正在进行微调和修复漏洞阶段,预计下个月可以发布。同时,xAI正在自行建设一个使用10万颗H100处理器的系统,以便争取以最快时间完成,目标是本月晚些时候开始训练,这将成为世界上最强大的训练集群,性能大幅领先。”
分析师 Anurag Rana 写道,马斯克决定在内部建立 AI 训练基础设施,这凸显了云提供商尽管拥有资金,但仍面临扩张挑战。“我们认为这些问题不仅限于甲骨文,也可能困扰微软和 AWS,不仅是因为专用芯片短缺,还因为电力短缺。”