DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉

人工智能聊天机器人最受人诟病的行为之一就是所谓的幻觉，即人工智能在令人信服地回答问题的同时，却向你提供了与事实不符的信息。简单地说，就是人工智能为了满足用户的需求而胡编乱造。

在使用生成式人工智能创建图片或视频的工具中，这就不是一个问题了。最后，最近才从 OpenAI 离职的知名专家安德烈-卡尔帕西（Andrej Karpathy）竟然说，产生幻觉的现象是生成式人工智能的底层技术--大型语言模型（LLM）的最大特点。

但是，在以文本为重点、基于 LLM 的聊天机器人中，用户希望所提供的信息与事实相符，因此幻觉是绝对不允许出现的。

防止人工智能产生幻觉是一项技术挑战，而且并非易事。不过，据Marktechpost报道，Google DeepMind 和斯坦福大学似乎找到了某种变通办法。

研究人员提出了一种基于 LLM 的系统--"搜索增强事实性评估器"（Search-Augmented Factuality Evaluator，简称 SAFE），它可以对人工智能聊天机器人生成的长格式回复进行事实检查。他们的研究成果连同所有实验代码和数据集已作为预印本发表在 arXiv 上。

系统通过四个步骤对答案进行分析、处理和评估，以验证其准确性和真实性。首先，SAFE 将答案分割成单个事实，对其进行修改，并与Google搜索结果进行比较。系统还会检查各个事实与原始问题的相关性。

图片.png

为了评估 SAFE 的性能，研究人员创建了一个包含约 16,000 个事实的数据集 LongFact。然后，他们在四个不同系列（Claude、Gemini、GPT、PaLM-2）的 13 个 LLM 中测试了该系统。在 72% 的情况下，SAFE 提供了与人类注释者相同的结果。在存在分歧的情况下，SAFE 的正确率为 76%。

此外，研究人员还声称，使用 SAFE 的成本比人工注释员或事实检查员低 20 倍，因此提供了一个经济可行的解决方案，而且可以大规模应用。

对文章打分

DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉

最新资讯

编辑精选

热门评论

相关文章

此时此刻两个Claude智能体正在无休止对话无人干预

《妈妈咪呀》国际女星一夜之间被AI端掉饭碗

IEEE：GPU很好，但不是唯一

AI开始对音乐人下手了

微软、OpenAI千亿美元算力建设项目曝光还有一个彩蛋

Top 10

“华为微信谈判进入僵局”上热榜

上海开建又一世界级超级大工程“东方枢纽” 占全市面积近1/40

8、18元套餐关停后中国移动用户均消费达到78.2元

亚马逊发现巨蟒新物种：系现存最大蛇类长7.5米重半吨

3月22日起，Windows可以一键召唤GPT-4了

刘亦菲17岁跑步旧照曝光引网友感叹：青春灵动发丝都在闪光