随着DeepSeek R1、Grok 3和Claude 3.7在短短一两个月内相继亮相,OpenAI昨天周四又将GPT-4.5加入这场愈发激烈的大模型竞赛。AI发展的速度令人瞠目,模型更新迭代的周期不断压缩,工业界和学术界都在感叹人工智能进化之快。
代号为"Orion"的GPT-4.5作为OpenAI迄今投入最多计算资源和数据的模型,其登场引发了业界对传统预训练方法是否已达天花板的深度思考尽管规模庞大,OpenAI在白皮书中指出,它并不认为GPT-4.5是一个前沿模型。
从周四2月27日开始,订阅OpenAI每月200美元ChatGPT Pro计划的用户将能够在研究预览阶段在ChatGPT中使用GPT-4.5。使用OpenAI API付费套餐的开发者也可以从今天开始使用GPT-4.5。至于其他ChatGPT用户,OpenAI发言人告诉TechCrunch,注册了ChatGPT Plus和ChatGPT Team的客户应该会在下周获得该模型的使用权。
(与GPT-4o和GPT-4omini相比, GPT-4.5 的API定价太贵了)
业界一直对Orion屏息以待,一些人认为它是传统AI训练方法可行性的风向标。GPT-4.5的开发使用了与OpenAI开发GPT-4、GPT-3、GPT-2和GPT-1相同的关键技术——在称为无监督学习的"预训练"阶段大幅增加计算能力和数据量。 在GPT-4.5之前的每一代GPT中,规模扩大都带来了数学、写作和编程等领域性能的巨大飞跃。确实,OpenAI表示,GPT-4.5的增大规模赋予了它"更深入的世界知识"和"更高的情商"。然而,有迹象表明,扩大数据和计算能力带来的收益开始趋于平缓。但是,在一些AI基准测试中,GPT-4.5的表现不如DeepSeek、Anthropic以及OpenAI自身的较新AI"推理"模型。
OpenAI承认,GPT-4.5的运行成本也非常高昂——如此昂贵以至于该公司表示正在评估是否继续长期在其API中提供GPT-4.5服务。
"我们将GPT-4.5作为研究预览版分享,以更好地了解其优势和局限性,"OpenAI在分享的博客文章中表示。"我们仍在探索它的能力,并期待看到人们以我们可能没有预料到的方式使用它。"
综合表现
OpenAI强调,GPT-4.5并非旨在完全替代GPT-4o——该公司为大多数API和ChatGPT提供支持的主力模型。虽然GPT-4.5支持文件和图像上传以及ChatGPT的画布工具等功能,但目前缺少一些能力,比如对ChatGPT逼真的双向语音模式的支持。
从优势方面看,GPT-4.5的性能比GPT-4o更强——也超过了许多其他模型。 在OpenAI的SimpleQA基准测试中,该测试评估AI模型对直接、事实性问题的处理能力,GPT-4.5在准确性方面优于GPT-4o和OpenAI的推理模型o1和o3-mini。根据OpenAI的说法,GPT-4.5比大多数模型产生幻觉的频率更低,理论上这意味着它编造内容的可能性应该更小。
OpenAI并未在SimpleQA测试中列出其顶级AI推理模型之一——deep research(深度研究)。值得注意的是,AI创业公司Perplexity的Deep Research模型在其他基准测试中与OpenAI的deep research表现相似,但在这项事实准确性测试中优于GPT-4.5。
在一部分编程问题子集——SWE-Bench Verified基准测试中,GPT-4.5的表现与GPT-4o和o3-mini大致相当,但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet模型。在另一个编程测试——OpenAI的SWE-Lancer基准测试中(该测试衡量AI模型开发完整软件功能的能力),GPT-4.5的表现优于GPT-4o和o3-mini,但仍不如deep research模型。
GPT-4.5虽然在AIME和GPQA等困难学术基准测试中未能达到领先的AI推理模型(如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技术上属于混合模型))的性能水平,但在这些相同测试中,它与或超过了领先的非推理模型,表明该模型在数学和科学相关问题上表现良好。
OpenAI还声称,GPT-4.5在基准测试不能很好捕捉的领域,如理解人类意图的能力方面,在质量上优于其他模型。OpenAI表示,GPT-4.5回应的语气更温暖、更自然,在写作和设计等创造性任务上表现出色。
我们实测效果发现GPT-4.5 不是一个推理模型(Reasoning Model) 它不是为编码或数学而设计的。它是为了创造力和写作而设计的。
在一项非正式测试中,OpenAI要求GPT-4.5和另外两个模型(GPT-4o和o3-mini)使用SVG(一种基于数学公式和代码显示图形的格式)创建独角兽图像。结果只有GPT-4.5创建出了类似独角兽的形象。
在另一项测试中,OpenAI要求GPT-4.5和其他两个模型回应提示:"我在考试失败后正经历一段艰难时期。"GPT-4o和o3-mini提供了有用的信息,但GPT-4.5的回应在社交适当性方面表现最佳。
扩展定律依旧受到挑战
OpenAI的GPT-4.5处于"无监督学习所能达到的前沿水平"。这可能是事实,但该模型的局限性似乎也证实了专家们的猜测——预训练的"扩展定律"将不再持续有效。
OpenAI联合创始人兼前首席科学家Ilya Sutskever在去年12月表示,"我们已经达到了数据峰值",并且"我们所知道的预训练方式无疑将会终结"。他的评论呼应了AI投资者、创始人和研究人员在去年11月向TechCrunch分享的担忧。
面对预训练的障碍,包括OpenAI在内的整个行业已经开始拥抱推理模型,这类模型执行任务的时间比非推理模型更长,但通常更加一致。通过增加AI推理模型用于"思考"问题的时间和计算能力,AI实验室确信他们可以显著提高模型的能力。 OpenAI计划最终将其GPT系列模型与o系列推理模型结合起来,从今年晚些时候推出的GPT-5开始。GPT-4.5据报道训练成本极高,多次推迟发布,且未能达到内部期望,它可能无法独自夺取AI基准测试的桂冠。但OpenAI很可能将其视为通往更强大技术的垫脚石。