新的语音模式将于下周向 ChatGPT Plus 用户开放

今年 5 月，OpenAI发布了其新的旗舰前沿模型 GPT-4o（"o"代表"omni"），该模型的音频理解能力得到了突出强调。GPT-4o 模型可以在平均 320 毫秒的时间内响应音频输入，这与人类在典型对话中的响应时间相似。OpenAI 还宣布，ChatGPT 的语音模式功能将利用 GPT-4o 模型的音频能力为用户提供无缝的语音对话体验。

OpenAI 团队撰文介绍了 GPT-4o 的语音功能：

"通过 GPT-4o，我们在文本、视觉和音频领域端到端训练了一个单一的新模型，这意味着所有输入和输出都由同一个神经网络处理。由于 GPT-4o 是我们第一个将所有这些模式结合起来的模型，因此我们在探索该模型的功能及其局限性方面仍处于起步阶段。"

今年 6 月，OpenAI 宣布，原计划于 6 月底向一小部分 ChatGPT Plus 用户推出的高级语音模式将推迟一个月推出。OpenAI 提到，需要更多时间来提高该模式检测和拒绝某些内容的能力。此外，它还在准备基础设施，以便在保持实时响应的同时将其扩展到数百万用户。

今天，OpenAI 首席执行官 Sam Altman 通过 X 确认，语音模式 alpha 版本将于下周面向 ChatGPT Plus 用户推出。

由于平均 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）的显著延迟，ChatGPT 当前的语音模式并不直观。即将推出的基于 GPT-4o 的高级语音模式将使 ChatGPT 用户能够无延迟地进行无缝对话。

与此相关的是，OpenAI 今天展示了它期待已久的网络搜索体验--SearchGPT。目前，SearchGPT 只是一个原型，它提供的人工智能搜索功能可以从清晰、相关的来源为您提供快速、及时的答案。

对文章打分

新的语音模式将于下周向 ChatGPT Plus 用户开放

最新资讯

编辑精选

热门评论

相关文章

OpenAI CEO Sam Altman将向特朗普就职典礼基金捐赠100万美元

Meta首次推出用于为AI生成的视频添加水印的工具"Video Seal"

OpenAI深夜上新：ChatGPT能视频聊天了一键共享屏幕、召唤“圣诞老人”

现在可以让 ChatGPT 在节日期间发出圣诞老人的声音

微软和OpenAI宣布支持新的机构数据倡议 (IDI)

哈佛大学和Google将发布100万本书籍到公共领域用作AI训练数据集

Top 10

中国最大沙漠被围起来了

解决方案在技术上过于落后中国企业仍然不愿采用国产芯片

贾跃亭又卖一台国际超模喜提FF 91

中芯国际将继续采用7纳米光刻技术至少到2026年尽管政府的预算几乎无上限

微软：今天起中国区Windows可以直接运行安卓手机App了

幽灵巨狮吃掉35名工人 126年后人们从它的牙缝毛发中发现一份惊人食谱