据The Information 最新报道,OpenAI 已经向一些客户展示了一种新的多模态人工智能模型,它既能与人对话,又能识别物体。该媒体援引未具名消息人士的话称,这可能是该公司计划在周一展示的内容的一部分。
据报道,与现有的独立转录和文本到语音模型相比,新模型能更快、更准确地解读图像和音频。它可以帮助客服人员"更好地理解来电者声音的语调或他们是否在讽刺",而且"理论上",该模型可以帮助学生学习数学或翻译现实世界中的标志。
该媒体的消息来源称,该模型在"回答某些类型的问题"方面可以超越 GPT-4 Turbo,但仍然容易十分自信地输出错误答案。
据开发者 Ananay Arora 称,OpenAI 可能还在准备新的内置 ChatGPT 电话功能,他发布了上述与通话相关的代码截图。阿罗拉还发现有证据表明,OpenAI 已经为实时音频和视频通信配置了服务器。
公司首席执行官山姆-奥特曼(Sam Altman)明确否认即将发布的消息与这款据称比 GPT-4"更好"的模型有关,传闻中的GPT-5 可能会在今年年底公开发布。
奥特曼还表示,公司不会宣布新的人工智能搜索引擎。但如果《The Information》所报道的内容属实,那么Google的 I/O 开发者大会仍有可能因此受到影响。Google一直在测试使用人工智能打电话。传闻中的一个项目是多模态Google助手的替代品"Pixie",它可以通过设备的摄像头观察物体,并提供购买建议或使用说明。
OpenAI 计划于周一上午 10 点(太平洋时间)/下午 1 点(美国东部时间)在其网站上通过现场直播的方式发布新服务。