OpenAI推出DALL-E 3 API和新版文本到语音模型

OpenAI 在其首次开发者日上推出了一系列新的 API。DALL-E 3 是 OpenAI 的文本到图像模型，在首次应用于 ChatGPT 和 Bing Chat 之后，现在可以通过 API 使用。OpenAI 表示，与前一版本的 DALL-E（如 DALL-E 2）类似，API 包含了内置内容节制功能，有助于防止滥用。

DALL-E 3 API 提供不同的格式和质量选项，分辨率从 1024×1024 到 1792×1024，每张生成图片的价格从 0.04 美元起。不过，与 DALL-E 2 API 相比，它的功能还有些有限--至少目前是这样。

与 DALL-E 2 API 不同的是，DALL-E 3 不能用来创建编辑版本的图像，即让模型替换已有图像的某些区域或创建已有图像的变体。OpenAI 表示，当生成请求被发送到 DALL-E 3 时，它会"出于安全考虑"和"增加更多细节"而自动重写，这可能会导致不那么精确的结果，具体取决于提示。

在其他方面，OpenAI 现在提供了一个文本到语音 API--Audio API，它提供了六种预设语音--Alloy、Echo、Fable、Onyx、Nova 和 Shimer--供用户选择，还提供了两种生成式 AI 模型变体。它从今天开始上线，每次输入 1000 个字符的价格为 0.015 美元。

OpenAI的CEO Sam Altman在台上说："这比我们听到的其他任何东西都要自然得多，这可以让应用程序的交互更自然，更易于使用。它还能解锁很多用例，比如语言学习和语音辅助。"

与某些语音合成平台和工具不同的是，OpenAI 并不提供控制所生成音频的情感影响的方法。在音频 API 的文档中，该公司指出，"某些因素"可能会影响生成的声音听起来如何，比如朗读文本中的大小写或语法，但 OpenAI 在这方面的内部测试结果"好坏参半"。

OpenAI 要求使用人工智能的开发者告知用户音频是由人工智能生成的。

在一份相关的公告中，OpenAI 推出了其开源自动语音识别模型 Whisper large-v3 的下一个版本，该公司声称该模型在各种语言中的性能都有所提高。该版本已在 GitHub 上发布，采用许可授权。

对文章打分

OpenAI推出DALL-E 3 API和新版文本到语音模型

最新资讯

编辑精选

热门评论

相关文章

Mistral发布AI模型Mistral Medium 3 平衡效率与性能

OpenAI计划将“星门”AI项目扩展到美国以外

DeepSeek致谢腾讯技术团队：对DeepEP的优化是一次“huge speedup”代码贡献

AI伴侣：是心灵避风港，还是新型精神依赖？

OpenAI重组伤及微软软银？非营利架构成上市"紧箍咒"

英伟达CEO黄仁勋：不会使用人工智能的人将失业

Top 10

传小米正与步步高集团合作开发不集成Google Play的HyperOS 3以应对不测

华为384颗自研芯片方案揭秘领先英伟达AMD一代

雷军曾看好的国产导航之光，为何沦为资本弃子？

这种“厨房纸”真的别再拿来直接接触食物了

五一假期来了下下周上4休5

爆火的新物种：为了偷食时不被发现它们全身“戴满”其它动物遗骸