在"12 Days of OpenAI"活动的最后一天,OpenAI 今天宣布即将推出 o3 系列推理模型。 与现有的 o1 系列类似,o3 系列将包括 o3 和 o3 mini 模型。OpenAI 还分享了 o3 型号的一些基准数据。
OpenAI 声称,o3 在编程基准测试中的表现优于其他推理模型
o3 在 ARC-AGI 半私密评估中的得分突破了 75.7%。 采用高计算配置的 o3 在半私密评估中获得了 87.5% 的分数。
在 EpochAI 前沿数学基准测试中,o3 解决了 25.2% 的问题,而现有模型只解决了 2%。
在 SWE-Bench Verified 测试中,o3 获得了 71.7 分,比 o1 高出 22.8 分。
在 Codeforces 上,o3 的 Elo 评分为 2727。
在 AIME 2024 中,o3 获得了 96.7% 的分数。 相比之下,o1 的得分是 83.3。
在 GPQA Diamond 中,o3 得分为 87.7%。 相比之下,o1 的得分为 78%。
ARC 奖团队就 OpenAI 的新 o3 模型评价如下:
OpenAI 的新 o3 模型代表了人工智能适应新任务能力的重大飞跃。 这不仅仅是渐进式的改进,而是真正的突破,标志着人工智能的能力与之前的 LLM 限制相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统,可以说在 ARC-AGI 领域接近人类水平。
o3 Mini模型将为用户提供在三个推理级别之间进行选择的选项: 高、中、低三个推理级别。 低级别速度最快,但准确度较低,而高级别速度最慢,但准确度较高。
近来推理一词已成为人工智能行业的常用流行语,但它基本上是指机器将指令分解成更小的任务,从而产生更强的结果。 这些模型通常会展示它是如何得出答案的,而不是不加解释地给出最终答案。 该公司还宣布了关于慎重调整的新研究,这要求人工智能模型逐步处理安全决策。 因此,这种模式要求人工智能模型主动推理用户的请求是否符合 OpenAI 的安全策略,而不是简单地给出 "是/否 "规则。 该公司声称,在对 o1 进行测试时,它在遵守安全准则方面比以前的模型(包括 GPT-4)要好得多。
OpenAI 尚未发布 o3 模型。 不过,从今天开始,它已开始共享 o3 模型,用于安全测试。 有兴趣的安全和安保研究人员也可以申请在公开发布之前使用 o3 模型。 o3 模型预计将于 2025 年向公众开放。