最近,英伟达CEO黄仁勋表示,AI会在五年内通过人类测试,AGI将很快到来!英伟达CEO黄仁勋在最近的斯坦福活动上预测说,AI会在五年内通过人类测试,AGI将很快到来。而Google一位工程师前不久恰巧发出了一篇长文硬核分析,认为2028年有10%概率实现AGI,佐证了老黄的观点。
在斯坦福大学举行的一个经济论坛上,黄仁勋回答了这个问题:人类何时能创造像人类一样思考的计算机?
这也是硅谷的长期目标之一。
老黄是这样回答的:答案很大程度上取决于我们如何定义这个目标。
如果我们对“像人类一样思考的计算机”的定义,是通过人体测试能力,那么AGI很快就会到来。
五年后,AI将通过人类测试
老黄认为,如果我们把能想象到的每一个测试都列出一个清单,把它放在计算机科学行业面前,让AI去完成,那么不出五年,AI会把每个测试都做得很好。
截至目前,AI可以通过律师考试等测试,但是在胃肠病学等专业医疗测试中,它依然举步维艰。
但在老黄看来,五年后,它应该能通过这些测试中的任何一个。
不过他也承认,如果根据其他定义,AGI可能还很遥远,因为目前专家们对于描述人类思维如何运作方面,仍然存在分歧。
因此,如果从工程师的角度,实现AGI是比较难的,因为工程师需要明确的目标。
另外,黄仁勋还回答了另外一个重要问题——我们还需要多少晶圆厂,来支持AI产业的扩张。
最近,OpenAI CEO Sam Altman的七万亿计划震惊了全世界,他认为,我们还需要更多的晶圆厂。
而在黄仁勋看来,我们的确需要更多芯片,但随着时间推移,每块芯片的性能就会变得更强,这也就限制了我们所需芯片的数量。
他表示:“我们将需要更多的晶圆厂。但是,请记住,随着时间的推移,我们也在极大地改进AI的算法和处理。”
计算效率的提高,需求并不会像今天这么大。
“我会在10年内,将计算能力提高了一百万倍。”
Google工程师:2028年有10%概率实现AGI
而Google机器人团队的软件工程师Alex Irpan,在LLM领域出现进展后发现,AGI的到来会比自己预想的更快。
Irpan对于AGI的定义如下——
一个人工智能系统,在几乎所有(95%+)具有经济价值的工作上,都能与人类相匹配或超过人类。
4年前,他对于AGI的预测是——
2035年出现的几率为10%;
2045年出现的几率有50%;
2070年出现的几率有90%。
然而现在,当GPT-4、Gemini、Claude等模型出现后,他重新审视了自己的判断。
现在他对于AGI的预测是——
2028年出现的几率为10%;
2035年出现的几率为25%;
2045年出现的几率为50%;
2070年出现的几率为90%。
对于自己的预测, Irpan在下面给出了详尽的解释。
计算的作用
关于AGI,Irpan认为存在两个主要的观点。
观点1:仅仅通过增加模型的规模就足以实现AGI。
目前很多看起来难以克服的问题,在模型规模大到一定程度时,就会自然消失。虽然扩大模型的规模并非易事,但相关的技术挑战预计将在不久的将来就会得到解决,随后AGI的实现也将顺理成章。
观点2:仅仅依靠扩大现有模型的规模是不够的。
虽然增加规模非常重要,但我们最终会发现,即便规模再大也无法实现AGI。这时,就需要跳出当前的技术范式,寻找全新的思路来取得进一步的突破。而这也将会是一个长期的过程。
2020年时,作者忽然发现,第一个观点(即通过扩大规模来实现AGI的假设)的重要性愈发凸显,因此他决定调整自己的“AGI时间线”。
而到了2024年,“规模扩大时才会发生涌现”的观点更是成为了主流。
如果缩放定律继续下去,AGI将不会再花那么长时间。而迄今为止的证据表明,缩放定律更有可能是正确的。
如果有什么没有被提到,那就是预测下一个token的灵活性。
事实证明,如果你对足够多的“指令示例”数据进行微调,那么预测下一个token就足以让AI表现得仿佛它能理解并遵循指令一样,而这已经非常接近于真正的理解了。
基于这种指令微调,可以让一个1.5B模型的表现超越一个没有微调的175B模型。而这就是让ChatGPT在当前的计算资源条件下得以实现的关键。
随着时间的推移,仅仅依靠大规模的算力和正确的数据集,就能够实现从初步概念到成熟产品之间的飞跃的可能性越来越大。
现在,作者开始认为,在这一进程中,80%依赖于算力,20%需要更加创新的思想。
当然,创新思想依然至关重要——例如“思维链”就极大地推动了我们能够更加有效地利用大语言模型。
论文地址:https://arxiv.org/abs/2309.03409
至少在当前阶段,找到更好的利用大语言模型的方法仍然是一个需要不断创新的领域。
无监督学习
想当年,在迁移学习领域,大家都为一篇能同时处理5个任务,并且展示了如何在第6个任务上快速学习的论文感到兴奋。
但现在,大家的焦点都放在了如何通过足够多轮次的下一个token预测,以零样本的方式处理多种任务的大语言模型上。换句话说就是:“LLM是能够识别各种模式的通用机器”。
相比之下,像PCGrad这样的专用迁移学习技术,不仅没人使用,甚至也没人去研究了。
如今,无监督和自监督方法仍然是推动每一个LLM和多模态模型发展的“暗物质”。只要将数据和计算任务“投入”这个无底洞,它就能给出我们需要的答案。
论文地址:https://arxiv.org/abs/2307.04721
与此同时,监督学习和强化学习仍然发挥着它们的作用,尽管热度已经大不如前。
当初,深度强化学习就曾经被指效率极其低下。的确,从头开始进行深度强化学习是有些不切实际,但它却是评估的一个有效途径。
时间快速流逝到现在,研究基于人类反馈的强化学习(RLHF)的人表示,只要有高质量的偏好数据,几乎任何强化学习算法都能得到不错的结果。
相比之下,最关键的问题则是,强化学习算法本身。
回顾Yann LeCun在2016年NeurIPS上的演讲中提到的那张著名的“蛋糕幻灯片”。人们虽然对上面的“樱桃”表示尊重,但更关注的是“蛋糕”本身。
作者依然相信,更好的通用强化学习算法是存在的,这些算法能够提升基于人类反馈的强化学习(RLHF)的效果。
然而,当你可以将额外的计算资源用于预训练或监督微调时,去寻找这些算法的必要性就变得相对较小了。
特别是机器学习领域正在逐渐偏向于采用模仿学习这种方法,因为它更易于实施且能更高效地利用计算资源。
至少在当前的研究环境中,我们正从通用的强化学习方法转向利用偏好数据结构的方法,例如动态偏好优化(DPO)等等。
更好的工具
在工具发展方面,随着Transformers技术成为越来越多人的首选,相关的工具变得更专业、更集中。
比如,人们会更倾向于使用那些“已经集成了LLaMa或Whisper”的代码库,而不是那些通用的机器学习框架。
与此同时,API的受众也变得更加广泛,包括业余爱好者、开发者和研究人员等等,这让供应商有了更多的经济动力去改善用户体验。
随着AI变得更加流行和易于获取,提出研究想法的人群会增长,这无疑加速了技术的发展。
缩放定律
一开始公认的模型缩放规律是基于2020年Kaplan等人的研究,这些规律还有很大的改进空间。
两年后,Hoffman等人在2022年提出了“Chinchilla缩放规律”,即在给定的算力(FLOPs)下,只要数据集足够大,模型的规模可以大幅缩小。
论文地址:https://arxiv.org/abs/2203.15556
值得注意的是,Chinchilla缩放规律基于的是这样一个假设:训练一个模型后,在基准测试上仅运行一次推理。
但在实际应用中,大型模型通常会被多次用于推理(作为产品或API的一部分),这种情况下,考虑到推理成本,延长训练时间比Chinchilla建议的更为经济。
随后,Thaddée Yann TYL的博客进一步分析认为,模型的规模甚至可以比以前假设的更小。
文章地址:https://espadrine.github.io/blog/posts/chinchilla-s-death.html
不过,作者认为,对于模型的能力来说,缩放规律的调整并不那么重要——效率的提升虽有,但并不明显。
相比之下,算力和数据仍是主要瓶颈。
在作者看来,目前最重要的变化是,推理时间大大缩短了——更小的规模再加上更加成熟的量化技术,模型可以在时间或内存受限的情况下变得更小。
而这也让如今的大模型产品比Chinchilla出现之前运行得更快。
回想2010年代初,Google曾深入研究延迟对搜索引擎使用影响的问题,得出的结论是:“这非常重要”。
当搜索引擎反应慢时,人们就会减少使用,即使搜索结果的质量值得等待。
机器学习产品也是如此。
产品周期兴起
2020年,作者设想了这样一个未来。其中,除了扩大规模之外,几乎不需要什么新的想法。
有人开发了一款对普通人来说足够有用的AI驱动应用程序。
这种极大提升工作效率的工具,基于的可能是GPT-3或更大规模的模型。就像最早的电脑、Lotus Notes或Microsoft Excel一样,改变了商业世界。
假设这个应用程序可以挣到足够的收入,来维持自己的改进。
如果这种提高效率的方式足够有价值,并且在考虑到运算和训练成本之后还能赚取利润,那么你就真正成功了。大公司会购买你的工具,付费客户的增加会带来更多的资金和投资。然后,这些资金又可以用于购买更多的硬件,从而能够进行更大规模的训练。
这种基于规模的思路意味着,研究会更加集中于少数几个有效的想法上。
随着模型变得越来越大、性能越来越好,研究将会聚集在一小部分已经证明能随着计算能力增长而有效扩展的方法上。这种现象已经在深度学习领域发生,并且仍在继续。当更多领域采用相同的技术时,知识的共享会变得更加频繁,从而促进了更优质的研究成果的诞生。或许在未来五年内,我们会有一个新的术语来接替深度学习的位置。
现在看来,作者认为不太可能的一切,都成真了。
ChatGPT已经迅速走红,并激发了大批竞争对手。它虽然不是最强的生产力工具,但已足以让人们愿意为此付费。
虽然大多数AI服务虽有盈利潜力,但为了追求增长还是选择亏损经营。据说,微软会因为Github Copilot上每增加一位用户而每月亏损20美元,不过Midjourney已经实现了盈利。
不过,这已经足够让科技巨头和风投公司投入数十亿美元,来购买硬件和招募机器学习人才了。
深度学习已成昨日黄花——现在,人们谈论的是“大语言模型”、“生成式AI”,以及“提示工程”。
现在看来,Transformer将比机器学习历史上的任何架构都要走得更远。
试着再次说不
现在,让我们再来探讨一下:“假设通用人工智能(AGI)会在不久的将来成为可能,我们将如何实现?”
首先,依然可以认为,进步主要来自更强的计力和更大的规模。可能不是基于现有的Transformer技术,而是某种更为高效的“Transformer替代者”。(比如Mamba或其他状态空间模型)
只要有足够的算力和数据,增加代码中的参数量并不难,因此,主要的瓶颈还是在于算力和数据的获取上。
当前的现状是这样一个循环:机器学习推动产品的发展,产品带来资金,资金又进一步推动机器学习的进步。
问题在于,是否有什么因素会让这种“缩放定律”失效。
论文地址:https://arxiv.org/abs/2312.00752
芯片方面,就算价格持续上升,甚至到了限制模型进一步扩大的地步,人们也仍然会希望在自己的手机上运行GPT-4大小的模型。
相比之下,数据的获取似乎是更大的挑战。
我们已经尝试了将互联网上的所有内容作为训练数据,但这也让实验室很难在公开数据上脱颖而出。
现在,模型之间的区别,主要来自于非公开高质量数据的使用。
据说GPT-4在编程方面表现出色,部分原因是OpenAI投入了大量时间、精力和金钱,来获取优质的编程数据。
Adobe甚至公开征集“500到1000张现实生活中的香蕉照片”来支持他们的AI项目。
而Anthropic曾经也有一个专门的“tokens”团队来获取和分析数据。
每个人都想要优质的数据,并且愿意为此付费。因为大家都相信,只要能得到这些数据,模型就可以有效地利用它们。
到目前为止,所有的缩放定律都遵循幂律,包括数据集大小。
看来,仅靠手工获取数据已经不足以迈过下一个门槛了。我们需要找到更好的方法来获得高质量数据。
很久以前,当OpenAI还在通过游戏和模拟环境进行强化学习研究时,Ilya曾经说过,他们非常看重一种叫做自我对弈的方法,因为它能够把计算过程转化为有价值的数据。
通过这种方式,AI不仅可以从自己与环境的互动中学习,还能在技能上实现飞跃性的进步。但遗憾的是,这只在特定的环境下有效,比如规则明确、实体数量有限的游戏环境。
如今,我们把这种基于自我对弈的方法,用在了提升大语言模型的能力上。
想象一下,对话就是AI的“环境”,它通过生成文本来“行动”,而这些行动的好坏会由一个奖励模型来评判。
与过去直接使用真实数据不同,现在的模型可能已经能够自己生成足够优质的数据(即“合成数据”)来进行学习。
有学者发现,GPT-4在标注上的准确性可以与人类相媲美。
论文地址:https://arxiv.org/abs/2304.03279
此外,基于扩散技术的图像增强,已经被证明可以帮助机器人学习。
而Anthropic则在其宪法AI和基于AI反馈的强化学习(RLAIF)上做了大量的工作,包括最近爆火的Claude 3。
甚至,NeurIPS还举办过一个关于合成数据的研讨会。
2024年的LLM,就好似2016年的图像分类。那时,研究人员为了扩充自己的数据集,纷纷开始使用生成对抗网络(GAN)。
作者表示,自己的第一篇论文GraspGAN讲的就是这件事。
论文地址:https://arxiv.org/abs/1709.07857
如果模型不是像“贪吃蛇”那样在自我循环,我们最终面对的可能是一个越来越不需要人类数据的世界。
在这里,进步完全取决于你能向系统投入多少算力(FLOPs)。
即便合成数据的准确度不如人工标注的数据,但它成本低啊。
最终,人类的直接反馈可能只会被用于建立新的奖励模型,或者对现有数据进行质量检查。
而其他所有的一切,都将由模型生成和监督,从而形成一个自我反馈的循环。
现在的语言模型,就好比是互联网上一张模糊的JPEG图片,原因在于其文本的品质不佳,并不适合作为训练材料。对互联网进行“模糊处理”是我们目前能做的最好尝试。
但如果情况发生变化,LLM能够成为比互联网本身更清晰的信息源,我们又将面对什么样的未来呢?
搜索和Q*
在Sam Altman罢免事件期间,路透社报道了一种名为Q*的方法,引起了广泛猜测。而圈内的研究人员普遍认为这是一种基于Q学习的搜索过程。
最后,Yann LeCun发表了一篇文章,呼吁大家冷静,因为几乎每个研究团队都在尝试将搜索技术与大语言模型(LLM)结合,如果有人成功实现了这一点,其实并不令人意外。
早在2014年,DeepMind就曾在一篇论文中指出卷积神经网络(CNN)能有效评估围棋棋步。通过引入蒙特卡洛树搜索(MCTS)技术,不到一年就发展出了AlphaGo。
而这也成为了过去十年机器学习领域的一个里程碑。
虽然搜索需要消耗巨大的计算资源,但它作为机器学习中最可靠的方法之一,终究还是可以通向成功的。
以MuZero为例,在每个棋盘游戏中,如果使用16个TPU进行训练,1000个TPU进行自我对弈,就意味着算力的需求增加了大约100倍。
这一切听起来有多可信?
总体而言,作者认为将模型继续扩展下去是可行的。一些看上去的瓶颈实际上可能不那么重要,解决方法总会被找到的。
至少到目前为止,作者认为“缩放定律”都还没有遇到真正的障碍。
炒作
2016年,一些知名的机器学习研究人员决定开个大玩笑。
他们创建了一个名为“Rocket AI”的网站,声称是基于一种名为“时间递归最优学习”(TROL)的神秘方法,并编造了一个在NeurIPS 2016上被警方终止的疯狂发布派对的故事。
文章末尾有一段引人深思的话:“人工智能正处于炒作的高峰期,这一点社区里的每个人都心知肚明。”
有趣的是,下图展示了自2016年以来“AI”在Google搜索趋势上的表现。不得不说,当时的人还是天真了……
在AI领域,模型永远无法完全实现宣称的能力,但它们能做的事情却在不断扩展,从未有过倒退。
正如今天的人工智能,将会是历史上最差的一样。
乐观者与悲观者
在通用人工智能(AGI)中,存在一个乐观派和众多悲观派。
乐观派相信,我们能够找到方法扩展模型的规模,并且通过扩大的模型解决所有其他难题。
而悲观派则从不同角度出发,认为进步将因为某些原因而放缓或停滞。
面对数据来源的挑战
生成式人工智能(AI)是否正在通过向互联网上传播大量低质量的文本,使得自己的训练过程变得更加艰难?
这在短期内极为重要,但随着时间的推移,我们终将会找到解决方案。
整个关于“AI自我对弈”的讨论基于一个假设,即我们将达到一个临界点,届时经过筛选的大语言模型(LLM)文本将足以作为训练材料。
现在,每当有表现出色的大语言模型(LLM)出现时,总会有人怀疑这是否因为测试集泄露,毕竟这种情况以前发生过,而且越来越难以排除这种可能性。
这无疑给研究带来了阻碍,特别是在进行模型评估本身就变得成本高昂的情况下。
然而作者认为,尽管这是一个挑战,但它不会对研究构成根本性的威胁。
自2016年以来,机器学习领域就一直面临着“基准测试既昂贵又不准确”的问题,但我们仍然找到了向前推进的途径。
面对“缩放”的挑战
对于每一个成功的LLaMa模型,都有一个Meta OPT模型无法达到预期。
如果你有空,可以看看OPT团队发布的一份详尽的问题记录。其中记录了感恩节期间发生的梯度溢出,一个因库意外升级而导致的激活范数异常上升的神秘问题等等。
扩展机器学习模型的规模,并非简单的增加数字、增加硬件、然后突然达到最先进水平的过程。这不仅需要机器学习的专业知识,还需要一种通过实践经验而不是阅读论文而得到的“专业知识”。
因此,有这样一个观点认为:理解如何扩展机器学习模型训练本身就是一个研究课题,并且它无法仅通过扩展来解决。最终,问题越来越演棘手,以至于让进展陷入停滞。
考虑到过去计算能力扩展的历史,以及阿波罗计划(支持更大火箭的发射)和曼哈顿计划(生产更多浓缩铀)等大型项目的成功,作者并不特别认同这一观点。但同时,也没有确凿的反驳理由。
面对物理具身的挑战
在机器学习领域,一个经典的讨点是智能是否依赖于物理形态。
考虑到模型在语言、语音和视觉数据处理上的能力,我们不禁要问,人类拥有哪些它所没有的感官输入?
这个问题似乎集中在与物理形态相关的感官上,例如味觉和触觉。
那么,我们能否说智能的发展受到这些感官刺激的限制呢?
人们通过接触和感受大量的刺激来学习和成长,而机器学习模型的途径则不同。
尽管大模型不必完全仿照人类的学习方式,但有这样一个观点:
1. 定义通用人工智能(AGI)为一个在几乎所有(95%以上)具有经济价值的工作中能够匹敌甚至超过人类的AI系统;
2. 这95%+的工作将涉及到执行物理的、现实世界中的行动;
3. 目前,大部分输入到模型中的数据并不是基于实体的。如果我们认为规模是解决问题的关键,那么缺乏基于实体的数据将会成为扩展的障碍。
对此,作者认为,目前智能的发展并不仅仅受限于来自物理刺激的数据,但要在现实任务中取得好成绩,这无疑是一个关键因素。
最近,有很多关于如何提高机器人学习中实体数据可用性的工作,例如Open X-Embodiment项目,以及各类数据集,如Something-Something和Ego4D。
这些数据集的规模可能还不够大,但我们可以通过模型生成方法来解决。
作者之所以共同负责AutoRT项目,是因为探索基于实体的基础模型,并推动更多基于实体的数据获取是非常重要的。
对此,作者表示,自己更倾向于拥有一个笨拙的物理助手,而不是一个超级智能的软件助手。
后者固然有用,但在也更加令人担忧。