下一步,Google需要把Gemini大模型整合进旗下产品,同时又不蚕食搜索等现有业务份额。今年年初OpenAI的崛起令全球震惊,而微软将ChatGPT嵌入必应更是令Google倍感威胁,Google是如何用一年时间在AI竞赛中重新站稳脚跟?
根据媒体发布的一篇文章,这家科技巨头首先平息内斗,合并两大人工智能部门,其次加速研发AI模型,推出多模态模型意图赶超OpenAI,最后凭借在芯片、模型框架等全方位布局,推出强大的Gemini模型开始反攻。
现在,Google走到了最困难一步——将Gemini大模型整合进旗下产品。
以下为华尔街见闻编译的原文:
不管是Google还是其他公司,这都是一个值得回顾的时刻,他们显然战胜了那些末日论者。
上周,Google发布了备受期待的新人工智能模型Gemini,而在此近一年前,一些评论家曾预测OpenAI 的 ChatGPT 可能会挑战Google在搜索领域的领导地位。Google积极应战OpenAI,领导层设法让公司内部相互竞争的部门开始合作,共同制定应对方案,从而击退了那些认为Google变得过于优柔寡断和官僚主义的人。如今Google在搜索领域的主导地位依旧,就连其股票也在今年一路上涨。
现在艰苦的工作开始了,在接下来的几个月里,Google必须证明自己能够将Gemini整合到旗下的产品中,同时又不蚕食搜索等现有业务份额。
该公司已经将一个简化版本的Gemini应用到Bard中,该聊天机器人是该Google为与ChatGPT竞争而创建的,但迄今为止使用率似乎有限。两位熟知内情的人士说,未来,该公司计划将Gemini应用于几乎整个产品线,从搜索引擎到生产力应用软件,以及Pixel设备独有的AI助手Pixie。据一位了解内部讨论情况的人士说,产品还可能包括可穿戴设备,比如眼镜,它可以利用人工智能识别佩戴者看到的物体的能力,然后该设备可以向佩戴者提供建议,比如如何使用工具、解决数学问题或演奏乐器。
Google在做这些事情的同时,还必须小心翼翼地与监管机构周旋。该公司正处于两场关于其搜索引擎和广告业务的反垄断斗争中。反垄断官员正密切关注Google的人工智能工作,并将其视为Google如何利用在某一领域的优势在另一领域取胜的范例。在这种情况下,Google利用其搜索中的网站数据以及数十亿客户的数据来训练新的人工智能。
人工智能的成功对于Google的云计算业务也至关重要,对计算要求极高的人工智能模型正在激发对云服务的需求。微软与OpenAI 建立了紧密的合作关系,其云业务的增长速度已经超过了Google和亚马逊。
虽然ChatGPT因其对话式AI而闻名,但其背后的技术已被证明在整个商业领域都非常有效,从自动化客户服务和软件编码,到快速生成营销方案,以及帮助华尔街公司理解大量数据。Google面临的问题是,OpenAI 和微软在向消费者和企业销售这项技术方面已经占得先机,为他们提供了宝贵的数据和反馈,他们可以利用这些数据和反馈来改进产品。
“只有亲⾃试了之后,才能够判定是人们能用它创造出什么,我们才刚刚开始看到这一点,但已经看到的是非常了不起”,Madrona Venture Group 的合伙人Jon Turow指出,他曾在亚马逊云计算部门负责人工智能产品。
Gemini是Google25年历史上投入最大的努力之一,随着Google步入中年,其核心广告业务继续创造巨额利润,这也为其母公司Alphabet在自动驾驶汽车、健康保险和生物技术等新业务上的一系列押注提供了资金,但是这些下了十年的赌注都没有得到回报。
因此,越来越多的投资者要求Google领导层削减18.2万人的成本,今年的大规模裁员打击了员工士气。同时,Google正准备在新的一年里进行更多的裁员,但目前还不清楚裁员的范围是广泛的还是针对特定群体。
人工智能是另一个赌注,需要公司投入巨额资金,支付从人员到硬件的一切费用。一位与Gemini团队关系密切的人士表示,Google需要投入巨资来抵御人工智能团队向OpenAI倒戈的威胁。
Google还选择了一种特别昂贵的技术方法,即设计自己的人工智能芯片。这一决定使Google在硬件上独立于英伟达,后者是人工智能服务器芯片的主要供应商。OpenAI等竞争对手依赖于英伟达和其他公司生产的硬件。
Google还希望消除人们对它的看法,即它的成果不过是靠几十年前的创新成果。多年来,Google通过 Google Brain 和 DeepMind 两个独立的部门为人工智能研究投入了大量资金。Google甚至还发明了transformer的底层技术,该技术是OpenAI创建的GPT系列人工智能模型的核心。
但是,OpenAI的崛起让人们担心,Google可能会像之前的许多其他老牌科技巨头一样,在技术上失去领先地位。据一位直接了解Google与微软讨论情况的人士透露,在Google内部,微软在今年2月将 ChatGPT纳入必应搜索引擎,这让Google的高管们尤其感到不安。
Google发言人未就此事发表评论。
AI部门内斗
多年来,Google和 Alphabet 的首席执行官桑达尔-皮查伊一直向同事抱怨,他无法让旗下的两个人工智能研究部门进行合作。Google2014 年收购了DeepMind,该公司首席执行官Demis Hassabis长期以来一直坚持独立于母公司,他认为这样的安排可以让公司更好地实现开发通用人工智能的目标。
与此同时,DeepMind的姊妹部门Google Brain专注于研究如何将AI应用于Google的产品,并孵化了机器学习领域的重要进展,如transformer,这一发明为Google和其他公司训练更复杂的模型铺平了道路。该部门由Jeff Dean领导,他是一名资深工程师,在Google成立初期,他的编码工作帮助Google将搜索引擎扩展到数十亿用户。
两个部门之间的分歧很深,Google Brain的总部位于加州山景城的Google总部,而Hassabis和他的团队则在伦敦国王十字车站附近的办公室。
一位曾在DeepMind工作过的人士说,随着公司规模的扩大,DeepMind不遗余力地避免与Google大脑合作。例如,在Google大脑当时没有主要业务的城市,如巴黎和阿尔伯塔省的埃德蒙顿等地开设办事处。DeepMind的研究人员可以访问Google Brain编写的代码,但反之不行。一些员工认为这是 DeepMind 过度保密的表现,甚至在Google员工中也是如此。当Hassabis想采取措施保持 DeepMind 的独立性时,他会直接与联合创始人Larry Page沟通,后者与联合创始人Sergey Brin一起主导了收购,并拥有 Alphabet的控股权。
一位知情人士说,随着时间的推移,Hassabis希望将DeepMind 与Google更彻底地分开,因为他越来越担心这家庞大的公司会如何使用这项技术,包括将其出售给军方。他萌生了创建一家独立公司的想法,该公司将拥有DeepMind 的知识产权。但在2021年,Hassabis告诉DeepMind的员工,在皮查伊承诺向该公司提供更多资金用于包括人工智能伦理在内的目的后,脱离Google的努力已经结束。
多年来,对资源的争夺加剧了两家公司之间的紧张关系。Google向其人工智能研究人员发放的服务器芯片数量有限。随着全行业对人工智能的狂热促进了对芯片的需求,这些芯片变得更加稀缺。
与此同时,随着Google高管深陷内部政治泥潭,公司的著名人工智能研究人员也开始纷纷出走。其中一些人成立了自己的公司,他们对Google的官僚文化感到沮丧,因为在 OpenAI推出类似ChatGPT的服务之前,Google的官僚文化早已阻碍了ChatGPT的发布。还有一些人则被OpenAI收购,OpenAI是马斯克和其他知名人士于2015年以非营利形式创办的一家初创公司,部分原因是他们担心Google将拥有人工智能的未来。OpenAI的创始人之一是Ilya Sutskever,他是Google大脑的一名重要工程师,后来领导了多项进展,比如创造出可以通过推理解决未曾遇到过的问题的人工智能。
去年11月,当 OpenAI 发布 ChatGPT 时,公众的反应在整个Google引起了震动。这家400人的初创公司竟然击败了Google,推出了一个可以令人信服地回答各种主题问题的聊天机器人,这让Google的竞争力受到了质疑。
不过,Google的一些领导似乎并没有被这个互联网新宠儿吓到。一位知情人士说,在 ChatGPT 推出几周后的一次员工会议上,Dean在回答有关聊天机器人的问题时说,Google不会对其他初创公司的做法做出反应。
但到了二月份,微软宣布将在其必应搜索引擎中应用ChatGPT是。一些投资者认为,聊天机器人可能会削弱Google在搜索领域的主导地位,这一观点令Google的高管们感到危险。
思想的融合
Google需要做一些事情,而且要快。
于是,Google在短短几个月内拼凑出了Bard聊天机器人,并于今年3月正式发布。在Google内部,这项工作引起了轩然大波,因为Google的一位著名研究员Jacob Devlin向皮查伊和其他高管提出了对Google使用 ChatGPT 的数据来训练人工智能模型的担忧,随后他辞职了。他立即加入了 OpenAI,但仅仅几个月后,他又回到了Google,原因不得而知。
Google的另一个回应是最终结束了DeepMind和Google Brain之间的内斗。Google从这两个团队中选拔研究人员,建立了一个新的模型:Gemini模型由Dean和DeepMind高级研究员Oriol Vinyals领导,后者曾与Dean在大脑共事。
今年4月,Google宣布合并Google Brain和DeepMind。Hassabis接管了新实体--Google DeepMind,而Dean则退居二线,成为Google的首席科学家。这一举动让许多Google工程师感到震惊,他们认为,鉴于Dean的成就和在公司工作已久,他本应成为该部门的领导者。
领导者们试图把合并说成是合并后部门的胜利,Google Brain负责研究的副总裁Zoubin Ghahramani访问了 DeepMind 的伦敦办公室,在宣布变革的那一周召开的全体会议上向员工解释了重组的原因。Google Brain为自己的员工单独召开了一次会议。Hassabis告诉员工们,GoogleDeepMind将汇集世界上最好的两个人工智能研究团队。
但Google的人工智能员工很快就意识到,工作重点也在发生变化。GoogleDeepMind的领导层缩减了对打造有竞争力的人工智能产品并不重要的研究项目。这些人说,失去资源的项目包括一个名为Gato的多模态模型以及一个名为GenRL的研究团队,该团队建立的人工智能系统能够在虚拟环境中导航,就像雅达利游戏中的虚拟环境一样。
高管们说,这些变化还有一个额外的好处,减少工作重叠,削减优先级较低的项目,意味着员工们不必再为获得用于研究的芯片而争得头破血流。
在山景城,分布在公司园区多栋大楼的人工智能员工搬到了位于园区中心的一间办公室,目的是加强研究人员之间的合作。
随着OpenAI爆炸性崛起的冲击逐渐消退,Google终于迎来了反击的机会。
“秘密武器”
尽管如此,Google仍然面临着一个巨大的挑战:建立一个表现优于OpenAI最先进模型GPT-4的模型。
从一开始,这就意味着研究人员必须在最后期限前完成模型开发。为了在紧迫的时间内完成任务,员工们不分昼夜地工作,这种自上而下的工作方式与Google以往对研究实验室放手不管的做法大相径庭。一位与这项工作关系密切的人士说,一些员工每周工作80小时已成为常态。
即使在公司的人工智能之外,Google员工也被要求迅速掌握这项技术。据两位知情人士透露,在这一年里,Google云要求员工通过人工智能方面的测试,并为销售等非技术岗位的员工提供额外的材料,从而推动员工提高人工智能知识水平。
Google的目标是通过赋予Gemini理解各种不同媒体(包括文本、图像、视频和音频)的能力,从而较OpenAI更有优势,例如,人工智能可以用通俗易懂的英语解释和说明复杂图表的内容。皮查伊后来说,Gemini将从头开始 根据这些类型的数据进行训练。皮查伊很清楚,今年3 月,OpenAI 曾宣布为GPT-4 提供类似的图像识别功能,但最初并没有广泛提供这些功能。这让Google有机会在 OpenAI 发布之前,通过Gemini发布一套广泛的多模态模式。
Google还有一个秘密武器:YouTube。两位熟知内情的人士说,Google研究人员在很大程度上依赖于Google拥有的流媒体服务,这些数据包括图像、视频和音频字幕文本,对于训练人工智能模型非常宝贵。
这让Google获得了比OpenAI和AI图像初创公司Midjourney等竞争对手丰富得多的信息库。这些人说,这也意味着Google必须满足法律部门的要求,比如确保如果YouTube用户删除了视频,Google也会从其模型使用的数据集中删除该内容。
Google的另一个优势是计算能力,与依赖微软服务器的OpenAI 不同,Google拥有自己的数据中心。为了更高效地运行软件,Google甚至打造了自己的专用人工智能芯片——张量处理单元(TPU)。Google为 Gemini计划积累了数量惊人的芯片--7.7 万个代号为Pufferfish的第四代张量处理单元。第三季度,Google未分配的企业成本(包括在 DeepMind 上的支出)猛增近 40%,达到16亿美元。
当伦敦的员工结束一天的工作,而山景城的员工开始一天的工作时,Gemini的领导者通过每天与监督项目部分工作的员工举行会议,随时了解研究人员的进展情况。一位人士说,主持会议的有Dean、Vinyals和研究副总裁Koray Kavukcuoglu。
高级管理人员也在战壕里工作,Dean率先改进软件,帮助公司的算法处理海量数据。联合创始人Sergey Brin曾因办公室恋情丑闻而与Google保持距离,但他在山景城与Gemini研究人员并肩工作,定期在公司食堂与他们共进午餐。
一路上也有一些尴尬的时刻,在今年 2 月为 Bard 公司做的一次演示中,聊天机器人在詹姆斯-韦伯太空望远镜的问题上犯了一个事实错误,这让正努力追赶 OpenAI 的Google十分尴尬。两天后,当这个错误广为人知时,Google股价下跌了 9%。
今年 5 月,Google在年度开发者大会上的一次演讲中首次披露了Gemini的存在,华尔街对此印象深刻:公司股价当天跃升了 4% 以上。
蓄力赶超
在接下来的几个月里,Google逐渐接近发布 Gemini,9 月份Google让一些开发人员使用了较小版本的Gemini进行测试。
但就在同一个月,OpenAI推出了GPT-4 with Vision,在多模态功能上击败了Google,这也为其技术带来了更多的关注,同时也带来了新的业务。一位与该团队关系密切的人士说,消费者对 Bard 的使用让团队内部的一些高管感到失望。就在微软宣布其 Azure 云计算部门收入增长 29%,令人印象深刻的同一天,Google在10月份披露其云计算部门第三季度收入增长乏力,仅为 22%。这只会增加Gemini团队的压力,迫使他们拿出大手笔。
然后,大约在11月,在对新产品进行行政审查时,本应与GPT-4 竞争的最先进的Gemini模型在英语以外的语言中难以正常工作。
让Google稍感安心的是,OpenAI 也在处理自己的问题。2023 年中期OpenAI废弃了一个名为 Arrakis 的重要新模型,因为它在训练中表现不佳。11月底,OpenAI 董事会解雇了首席执行官Sam Altman,OpenAI 几近崩溃。Altman在这一事件后重返OpenAI,似乎暂时稳住了这艘船。
最后,在12月初,Google拉开了 Gemini 的帷幕。它公布的测试结果显示,性能最强的版本 Gemini Ultra 在多项行业标准基准测试中的表现优于 GPT-4,尽管许多研究人员对这些说法提出了质疑。Google公司自己也承认,该视频夸大了Gemini的功能。该视频的发布让公司一些事先没有看过视频的普通员工感到沮丧,但一连串的声明传递了一个强烈的信息:Google已经做好了竞争的准备。
一位高管甚至发起了攻势,抨击微软依赖 OpenAI 开发其尖端技术。Google和Alphabet 全球事务总裁Kent Walker在新闻媒体 Semafor 举办的一次活动上说,公司不相信“外包”人工智能开发。
现在,Google面临的考验是将Gemini到各个产品应用中,就像微软对 OpenAI 技术所做的那样。但Google有一个对手不具备的优势:Pixel 硬件设备组合,包括手机、手表和耳塞,都能从人工智能中受益。其中一个版本的 Gemini 就是专门为在 Pixel 手机上运行而设计的,Pixel手机使用的是Google定制的人工智能芯片。
在科技公司竞相将自己的硬件与新的人工智能功能整合在一起的时候,Pixel设备专用的人工智能助手的推出可能会促进Google硬件业务的发展。据一位知情人士透露,Pixie 将使用客户手机上的信息,包括来自Google地图和 Gmail 等产品的数据,进化成更加个性化的Google助手。这位知情人士称,该功能最快将于明年在Pixel 9和9 Pro上推出。
最终,Google希望把这项功能带到普通手机和手表等设备上,该公司将需要越来越先进的机型来支持其所有的产品理念。不过,Google似乎正在抓紧时间,确保自己不会再次陷入困境。据一位熟知内情的人士透露,Google已经在训练下一代大模型Gemini 2。