几个月前,走在技术前沿的医生展示了一种人工智能转录工具,他用它来记录和总结他的病人会议。在当时的演示中病例摘要表现得很优秀,但ABC News报道中的研究人员发现,OpenAI的Whisper并非总是如此,它虽然为许多医院的医生减少了负担,但也会出现“幻听”现象,生成捏造事实的内容。
据ABC News报道,Whisper被一家名为Nabla的公司用于医疗转录工具,该公司估计已经转录了 700 万次医疗对话。 该媒体写道,超过 30000 名临床医生和 40 个医疗系统在使用该工具。 据报道,Nabla 已经意识到 Whisper 会产生幻觉,并正在"解决这个问题"。
一组来自康奈尔大学、华盛顿大学和其他机构的研究人员在一项研究中发现,在大约 1% 的转录中,Whisper 会产生幻觉,在录音沉默期间,有时会用暴力情绪或无意义的短语编造整句话。 作为研究的一部分,研究人员从 TalkBank 的 AphasiaBank 中收集了音频样本,他们注意到,当患有失语症的语言障碍患者说话时,问题尤其常见。
研究人员之一、康奈尔大学的艾莉森-科内克(Allison Koenecke)在关于该研究的主题中发布了下面这样的例子。
研究人员发现,幻觉还包括编造的医疗条件或 YouTube 视频中可能出现的短语,例如"谢谢观看!"。 (据报道,OpenAI 曾经转录了超过一百万小时的 YouTube 视频来训练 GPT-4)。
这项研究于 6 月份在巴西举行的计算机械协会 FAccT 会议上发表。 目前尚不清楚该研究是否经过同行评审。
OpenAI 发言人 Taya Christianson 通过电子邮件发送了一份声明:
我们非常重视这个问题,并在不断努力改进,包括减少幻觉。 对于在我们的 API 平台上使用 Whisper,我们的使用政策禁止在某些高风险决策环境中使用,我们的开源模型卡也建议不要在高风险领域使用。 我们感谢研究人员分享他们的发现。