去年,OpenAI 在旧金山举行了一场声势浩大的新闻发布会,会上该公司发布了一系列新产品和工具,其中包括类似 App Store 的GPT 商店。不过,今年的活动将更加低调。本周一,OpenAI 表示它将改变 DevDay 大会的形式,从一个大型活动转变为一系列开发者参与会议。该公司还确认,它不会在 DevDay 期间发布下一款主要旗舰机型,而是将重点放在 API 和开发者服务的更新上。
OpenAI 的一位发言人表示:"我们不打算在 DevDay 上宣布下一个模型。我们将更专注于向开发者介绍可用的产品,并展示开发者社区的故事。"
OpenAI 今年的 DevDay 活动将于 10 月 1 日在旧金山、10 月 30 日在伦敦、11 月 1 日在新加坡举行。所有活动都将包括研讨会、分组会议、OpenAI 产品和工程人员的演示以及开发人员聚光灯。报名费为 450 美元(符合条件的与会者可获得奖学金,费用为 0 美元),报名将于 8 月 15 日截止。
近几个月来,OpenAI 在生成式人工智能领域采取的循序渐进的措施多于巨大的飞跃,它在训练其当前领先模型GPT-4o和GPT-4o mini 的后继者时,选择了磨练和微调其工具。该公司已经改进了各种方法,以提高模型的整体性能,并防止这些模型像以前那样频繁出错,但 OpenAI 似乎已经失去了在生成式人工智能竞赛中的技术领先优势--至少根据一些基准测试的结果是这样。
原因之一可能是寻找高质量训练数据的挑战越来越大。与大多数生成式人工智能模型一样,OpenAI 的模型也是在大量网络数据的基础上训练出来的--许多创作者因为担心自己的数据会被剽窃或得不到信用或报酬而选择屏蔽这些网络数据。根据Originality.AI提供的数据,目前全球排名前1000位的网站中,有超过35%的网站屏蔽了OpenAI的网络爬虫。麻省理工学院数据出处倡议(Data Provenance Initiative)的一项研究发现,在用于训练人工智能模型的主要数据集中,约有 25% 的"高质量"来源数据受到了限制。
据 Epoch AI 研究小组预测,如果目前的访问受限趋势继续下去,开发人员将在 2026 年到 2032 年之间耗尽用于训练人工智能生成模型的数据。由于担心版权诉讼,OpenAI 不得不与出版商和各种数据经纪商签订昂贵的许可协议。
据说,OpenAI 已经开发出一种推理技术,可以改善其模型对某些问题,尤其是数学问题的反应,该公司的首席技术官米拉-穆拉提(Mira Murati)承诺,未来的模型将具备"博士级"的智能。(OpenAI 在今年 5 月的一篇博文中透露,它已经开始训练下一个"前沿"模型)。这是一个很大的承诺--而且兑现的压力很大。据报道,OpenAI在训练其模型和雇佣高薪研究人员方面已耗资数十亿美元。
OpenAI 仍然面临着许多争议,例如使用受版权保护的数据进行训练、限制性的员工 NDA以及有效地将安全研究人员排除在外。产品周期的放缓可能会产生有益的副作用,即反驳OpenAI 为追求能力更强、功能更强大的生成式人工智能技术而将人工智能安全工作置于次要地位的说法。