OpenAI推出o3和o3 Mini推理模型明年初向公众开放

在"12 Days of OpenAI"活动的最后一天，OpenAI 今天宣布即将推出 o3 系列推理模型。与现有的 o1 系列类似，o3 系列将包括 o3 和 o3 mini 模型。OpenAI 还分享了 o3 型号的一些基准数据。

Screenshot_2024_12_20_at_10.02.14_AM.webp

OpenAI 声称，o3 在编程基准测试中的表现优于其他推理模型

o3 在 ARC-AGI 半私密评估中的得分突破了 75.7%。采用高计算配置的 o3 在半私密评估中获得了 87.5% 的分数。
在 EpochAI 前沿数学基准测试中，o3 解决了 25.2% 的问题，而现有模型只解决了 2%。
在 SWE-Bench Verified 测试中，o3 获得了 71.7 分，比 o1 高出 22.8 分。
在 Codeforces 上，o3 的 Elo 评分为 2727。
在 AIME 2024 中，o3 获得了 96.7% 的分数。相比之下，o1 的得分是 83.3。
在 GPQA Diamond 中，o3 得分为 87.7%。相比之下，o1 的得分为 78%。

ARC 奖团队就 OpenAI 的新 o3 模型评价如下：

OpenAI 的新 o3 模型代表了人工智能适应新任务能力的重大飞跃。这不仅仅是渐进式的改进，而是真正的突破，标志着人工智能的能力与之前的 LLM 限制相比发生了质的转变。o3 是一个能够适应从未遇到过的任务的系统，可以说在 ARC-AGI 领域接近人类水平。

o3 Mini模型将为用户提供在三个推理级别之间进行选择的选项：高、中、低三个推理级别。低级别速度最快，但准确度较低，而高级别速度最慢，但准确度较高。

近来推理一词已成为人工智能行业的常用流行语，但它基本上是指机器将指令分解成更小的任务，从而产生更强的结果。这些模型通常会展示它是如何得出答案的，而不是不加解释地给出最终答案。该公司还宣布了关于慎重调整的新研究，这要求人工智能模型逐步处理安全决策。因此，这种模式要求人工智能模型主动推理用户的请求是否符合 OpenAI 的安全策略，而不是简单地给出 "是/否 "规则。该公司声称，在对 o1 进行测试时，它在遵守安全准则方面比以前的模型（包括 GPT-4）要好得多。

OpenAI 尚未发布 o3 模型。不过，从今天开始，它已开始共享 o3 模型，用于安全测试。有兴趣的安全和安保研究人员也可以申请在公开发布之前使用 o3 模型。 o3 模型预计将于 2025 年向公众开放。

对文章打分

OpenAI推出o3和o3 Mini推理模型明年初向公众开放

最新资讯

编辑精选

热门评论

相关文章

一级市场融到饱 OpenAI们不想上市

ChatGPT卷入爆炸案刷屏 AI安全正在成为最贵的学费

ChatGPT 的最新功能可让用户为其赋予“健谈”和“Z 世代”等特质

Perplexity与Tripadvisor合作从真实用户处获取酒店信息

全球银行业未来三至五年或因人工智能裁员多达20万人

xAI 正在为其 Grok 聊天机器人测试一款独立的 iOS 应用程序

Top 10

王国辉：只需要一家中国公司成功开发出EUV光刻机那么“芯片战争就会结束”

华为首款SSD上线京东：明天开售 1TB 499元

刀郎“击败”周杰伦，暴露了一个隐秘的角落

2025年贺岁纪念钞、纪念币今晚预约抢到赚500元

王国辉：只需要一家中国公司成功开发出EUV光刻机那么“芯片战争就会结束”

北大韦神板书曝光：果然数学的尽头是英语一句中文也没有

对文章打分

OpenAI推出o3和o3 Mini推理模型 明年初向公众开放

最新资讯

编辑精选

热门评论

相关文章

Top 10

OpenAI推出o3和o3 Mini推理模型明年初向公众开放