在昨天一次采访中, OpenAI首席执行官Sam Altman分享了其最新模型O1的愿景与思考,同时也简要提及了刚刚发布的O3模型。值得注意的是,O3模型在Frontier Math基准测试中展现出惊人的数学推理能力,就连著名数学家陶哲轩都表示,这些测试题目的难度需要人类数学家耗费数小时乃至数天才能完成。
谈到O1模型,Altman表示这是一个备受瞩目的项目,正致力于打造具备人类式深度思考能力的AI系统。与当前的大语言模型相比,O1的目标更为宏大。它试图模拟人类的"系统二"思维方式 - 即在面对复杂问题时,能够进行深入的推理、提出假设并系统性地验证。虽然GPT-4等模型已经展现出令人印象深刻的能力,但在处理高度复杂的数学问题、编程任务或前沿科学探索等领域时,仍然缺乏这种深度推理能力。
OpenAI采用了一个五级框架来评估AI系统的能力水平,目前其推理模型处于第二级。Altman在访谈中做出了一个大胆的预测:到2025年底,我们将看到能够执行令人惊叹的认知任务的AI系统,其解决复杂问题的能力可能在某些领域超越人类。
文稿整理
主持人Melissa Koide: Sam,欢迎来到 Kennedy Center Reach,我想你无需多做介绍了。
Sam Altman: 谢谢你们邀请我。
关于o1 模型的设计逻辑
主持人 最近你发布了 o1 模型,这为金融行业带来了重要优势,特别是在我们需要了解模型工作原理的时候。所以我想,如果可以的话,你能为我们介绍一下 o1 模型的设计逻辑吗?我们可以从这里展开讨论。
Sam Altman: 好的,多年来,这个领域的一个主要关注点是,我们是否能够开发出具备类似人类“系统二”思维的模型。这种思维方式能够让人类面对困难问题时,花更多时间深思熟虑,提出假设,并在头脑中进行测试,可能还会使用外部工具或者纸笔记录,最后得出更好的答案。尽管像 GPT-4 这样的模型在某些情况下表现得令人印象深刻,但这种能力基本上还是缺失的。如果我们想解决真正困难的数学问题或复杂的编程问题,或者帮助科学家探索新的世界认知,我们确实需要这种增强的推理能力。因此,o1 是我们迈向这一目标的第一步。当然,很快还会推出更多增强推理能力的模型,能够应对更复杂的问题,得出更好的答案。
主持人 太棒了!那么据我理解,o1 显然是这一旅程中的一步。是否可以说,下一步可能是 AI 的代理性应用?
Sam Altman: 是的,我们希望如此。在一个模型可以很好地进行推理之前,你不会信任它去完成复杂的代理任务,比如那些需要长期规划的任务。不过,现在我们已经实现了这个突破,我相信,或者说我希望,我们可以打造出更好的代理体验。
主持人 这太棒了!我们都对此充满期待。在金融服务领域,这类技术展现了强大的可能性,特别是在人们日常生活中处理与财务相关的复杂需求时,比如选择停止支付哪些账单、购买哪种保险产品,以及设定长期目标。因此,一个具有代理功能的金融管理工具可能会带来巨大的潜力。我们很想听听你对这些技术应用方向的看法,尤其是它们如何服务于个人金融管理或其他相关领域。
Sam Altman: 这是个好问题。总的来说,我们喜欢让专家告诉我们该怎么做,而我们专注于如何打造优秀的 AI 工具。其他人经常用非常惊人的创新给我们带来意外之喜。但我可以分享一些我们观察到的通用模式。首先,AI 在自动化重复性、稍微复杂的工作流程上表现出色。如果过去的业务流程自动化只能针对非常静态且变化少的场景,现在的模型已经可以实现更多适应性,你会看到一些令人瞩目的创新成果。此外,整个业务的某些部分现在可以完全实现自动化。比如客户服务领域,我发现它的进展非常惊人。
过去的客户服务可能包括繁琐的电话选项、长时间等待、被转接、问题未解决然后掉线再重新开始。现在,这些问题已经不存在了。AI 客服可以即时响应,没有电话选项树,用户可以准确获得想要的服务,体验非常好。同时,你提到的代理性技术上线后,将能支持构建更多产品和服务。需要特别指出的是,它还会显著提升公司内部生产力。想象一下,一个银行的软件工程师如果可以将工作效率提高 10 倍,甚至未来提高到 100 倍,这将对整个行业产生深远影响,而这一点在讨论中常被忽视。
主持人 我看到在场很多银行高管都在点头,这确实令人兴奋。作为客户,能够得到更高效的服务确实是一种优势。关于代理性 AI 的未来应用,你如何区分敏感场景和非敏感场景?比如,金融代理与帮助选择晚餐地点的工具,这种区分你是怎么看的?
Sam Altman: 总的来说,在使用新型 AI 技术时,复杂的金融交易不应该是优先选择的应用场景。我认为这很好——技术的发展本就应该先从低敏感度的场景开始。如果你看从 GPT-3 到现在的 GPT-4 的进展,有些最初难以置信的任务现在已经可以完全依赖最新版本完成,这花了几年时间,但我们现在已经走到了这里。未来,我们会推出新的能力,而这些能力需要时间来验证是否足够安全和稳定,然后再应用到更敏感的场景中。但我想补充一点,新型推理模型比之前的模型更加可靠。它们在出错时的恢复能力、说“我不知道”的能力,以及在给出答案前更深入思考的能力都有显著提升。尽管它们目前还不适用于许多敏感场景,但这种发展方向确实让人充满期待。
关于AI和场景应用
主持人 非常棒,谢谢你。在金融服务领域,我们非常关注“黑箱问题”,以及模型的可解释性需求。你如何看待和解决大型语言模型的“黑箱挑战”,并在使用这些更复杂的模型时推广可解释性?
Sam Altman: 关于可解释性,人们通常有两种讨论方式。一种是“我需要知道每个神经元的运行情况,需要能够像 X 光一样看透模型,观察改变某个权重后会发生什么”。这在领域中被称为机械可解释性。另一种是“我需要你解释你是如何得出这个答案的,告诉我每一步逻辑过程发生了什么,我会决定这些逻辑是否合理”。
第一种方式并不是我们可以在人类中做到的。我们无法观察你大脑中每个神经元的活动,然后说:“好吧,现在它不再是个黑箱了,我理解了。但我们可以做的,是像第二种方式那样询问:“这是你的答案,请解释你是如何得出这个结论的,告诉我你用了哪些数据源,如果我想的话,我可以自己检查这些数据源。告诉我每一步的逻辑过程,我会判断这些步骤是否合理。你可以把问题分解到每一个逻辑跳跃点,但不需要涉及每个微不足道的细节,只需包括主要的部分即可。这种可解释性正是我们的推理模型所能帮助实现的。我们可以要求模型解释其推理过程,并根据这些解释判断结论是否合理。我认为,这种方式将更符合我们对有用的可解释性的需求。
主持人 这真的很有帮助。在金融领域,我们也一直在思考类似的问题,比如从逻辑回归模型到监督学习模型时,我们需要解释多少内容,以及目的是什么。谢谢你的解答。我还有一个问题,今天的讨论中提到了一点:如何将技术行业融入金融服务领域。这涉及文化差异,以及如何将一个高度监管的行业与技术行业的创新结合起来,从中受益。很想听听你对这些文化差异的看法,以及我们应该如何更好地理解和合作,让银行业更舒适地接受新技术。
Sam Altman: 我想传递的第一点是,技术仍在迅速发展,这种动态性使高度监管的行业以及很多其他事情变得具有挑战性。我们今天认为可能或不可能的事情,可能在相对较短的时间内完全改变。这种变化性确实很难应对,在技术如此动态的情况下制定长期计划是很困难的。我能给出的最好建议就是,不要对任何事物抱持过于僵化的态度,密切关注技术进展,并愿意灵活调整。
主持人 是的,我理解这一点。这对我们来说很难,但我们希望能够倾听和学习,同时跟上你们的探索步伐。我知道你也投资了一些金融科技公司,能不能谈谈这些公司在做什么?为什么你会选择投资它们?以及从中是否能看出你对金融和技术未来的看法,或者这些模型可能会把世界带往何处?我们很想听听你的想法。
Sam Altman: 我非常喜欢金融科技领域,正如你提到的,这些是我参与过的一些最有趣的投资。我不知道这个领域的未来究竟会走向何方,正如我之前提到的,技术的动态性让这一点难以预测。但我认为,丰富的智能——真正能够完成非常复杂任务的智能——一定能为这个庞大的行业带来伟大的新产品。我对金融科技最初的兴趣源于一次旅行中遇到的一个陌生人,他在南美从事金融工作。他告诉我,腐败是整个世界的头号问题,而我作为一个技术人,如果能开发出解决金融腐败的技术,就能解决他国家的所有问题。不知为什么,这句话深深地印在了我的脑海中。后来我越想越觉得,这确实是一个巨大的挑战和机会。它让我开始深入关注金融科技,并逐渐意识到它在我们生活中的广泛影响。我依然深信这一点:金融科技推动了世界的运转。如果我们能创造更好的产品和服务,它将触及生活的方方面面,并带来巨大的影响。
关于O3模型未来
主持人 好的,我们很喜欢这个话题。这些挑战也是我们一直关注的核心问题之一,即如何利用技术和数据让更多人能够享受到负责任的金融产品和服务。减少摩擦、降低成本,创造更多人参与金融体系的机会,这正是我们的关注点之一。所以我非常感谢你的见解。还有一个问题,大家可能会失望如果我不问你——我们听到了很多关于“通用人工智能(AGI)”的讨论。AGI到底是什么?什么时候会实现?它可能带来什么影响?我不得不说,这个问题可能比人工智能如何影响银行业更难回答,但你对此的研究更多,想听听你的看法。
Sam Altman: 通用人工智能(AGI)过去是人们经常提到的一个术语,指的是一种非常智能的 AI,它离实现还非常遥远。但随着我们离它越来越近,这个术语的实用性似乎下降了。现在人们用它来指代许多不同的东西。有些人用它描述类似 o1 的东西,而有些人则用它来描述真正的超级智能,即比全人类加起来还聪明的东西。我们目前尝试使用一个五级框架进行划分,而不是简单地将其二元化为“是否是 AGI”。目前,我们的推理模型处于第二级。随着距离越来越近,这种粗略的分类显得不够细致。不过,我可以说,到 2025 年底,我预计我们将拥有能够执行真正令人惊叹的认知任务的系统,这些系统会让你觉得“这个东西在很多困难问题上比我更聪明”。
主持人 我们现在坐在华盛顿特区,围绕公共政策进行讨论。如果给你一支笔和一张白纸,你会建议美国制定哪些法律,以确保我们构建出世界上第一个安全的超级智能 AI?
Sam Altman: 因为我们有太多未知的领域,我认为制定一个非常好的测试框架可能是最好的起点。这在许多其他行业中已经证明是有效的,在这里似乎也是非常合理的做法。
主持人 可以具体谈谈这个测试框架吗?我们想跟上你的节奏。
Sam Altman: 在 OpenAI 发布 o3 之前,应该有某种联邦测试框架来评估。框架需要明确我们最关注的危害,以及如何监控和缓解这些危害。这些测试需要在模型发布前完成,就像新药或新飞机的认证过程一样,你需要证明它在这些方面是安全的。
主持人 这是个很好的引导,我的最后一个问题可能是,你对特朗普政府有什么建议?听起来你提到了与 AI 安全研究所的一些合作工作,但……
Sam Altman: 关于安全性我有很多建议,但我想借此机会强调另一件事——与其他类型的软件不同,AI 需要巨大的基础设施支持,包括芯片、电力、庞大的数据中心等。在美国历史上,我们在某些有远见的领导人带领下,为国家繁荣和安全推动了大规模基础设施建设。我很希望看到特朗普总统也能全力推动这样的项目。
主持人 我继续问一个问题吧,因为我们还有时间。今天的讨论中有一个部分涉及 AI 对劳动者的影响。我们早些时候听到 Oren Kass 提出了他的观点。你能分享一下你对 AI 在长期内对劳动力市场影响的看法吗?
Sam Altman: 关于这个问题,人们常常感到困惑,我自己也有时会感到困惑。AI 是仅仅让工人更加高效,还是最终会取代许多劳动力?答案显然是两者兼有。它通过替代部分任务让工人更高效,给人们带来更多杠杆效应。从乐观的角度来看,我倾向于认为人类永远不会缺少事情去做。长期以来,我们一直听说自动化会让人们不必工作,但人们仍然需要工作。另一方面,这一次可能会有所不同。我不能断言自己或其他任何人真正知道答案。
主持人 是的,你之前提到“全民基本收入”可能作为应对工作减少的潜在政策工具。你能详细谈谈这个话题吗?
Sam Altman: 我不认为它是一个完全的解决方案,但它可以成为解决方案的一部分。随着社会越来越富裕,人们对社会支持的期望也在不断提高,我认为这种趋势会继续下去。但我不认为它是一个二元的选择,也不认为它能替代其他一切。