从去年聊天机器人问世之日起,它们的制造商就警告我们不要相信它们。像 ChatGPT 这样的工具所生成的文本并不基于既定事实的数据库。相反,聊天机器人是预测性的--根据其底层大型语言模型所训练的大量文本语料库,对哪些词语似乎是正确的进行概率猜测。
因此,用行业术语来说,聊天机器人经常会"自信地出错"。这甚至会愚弄受过高等教育的人,正如我们今年看到的律师提交由 ChatGPT 生成的引文的案例--他并没有意识到每一个案例都是无中生有。
这种情况解释了为什么我觉得聊天机器人作为研究助手大多毫无用处。它们会在几秒钟内告诉你任何你想要的信息,但在大多数情况下都不会引用它们的工作成果。因此,你需要花费大量时间研究它们的回答是否属实--这往往违背了使用聊天机器人的初衷。
Google的 Bard 在今年早些时候推出时,带有一个"Google It"按钮,可以将你的查询提交给公司的搜索引擎。这虽然能让你更快地获得关于聊天机器人输出结果的第二意见,但还是让你承担了判断真假的责任。
不过从今天起,Bard 将为你做更多的工作。在聊天机器人回答了你的一个问题后,点击Google按钮就可以"复核"你的回答。以下是该公司在一篇博文中的解释:
当你点击"G"图标时,"Bard"会阅读你的回答,并评估网络上是否有内容可以证实你的回答。如果可以对声明进行评估,你可以点击高亮显示的短语,了解更多有关搜索发现的支持或矛盾信息。
仔细检查查询会将回复中的许多句子变成绿色或棕色。绿色高亮显示的回复链接到引用的网页;将鼠标悬停在其中一个网页上,Bard 会向您显示信息的来源。棕色高亮显示的回复表示Bard不知道信息的来源,突出显示的可能是一个错误。
例如,当我仔细检查Bard对我关于 Radiohead 乐队历史问题的回答时,它给出了很多绿色高亮的句子,与我自己的知识相符。但它也把这句话变成了褐色:"他们赢得了无数奖项,包括六次格莱美奖和九次全英音乐奖"。将鼠标悬停在这句话上,会发现Google的搜索结果显示了相互矛盾的信息;事实上,电台司令(Radiohead)从未获得过一个全英音乐奖,更不用说九个了。
上周,Google产品高级总监杰克-克劳奇克(Jack Krawczyk)在接受我的采访时说:"我要告诉你发生在我生命中的一个悲剧。"
Krawczyk 曾在家里烹饪剑鱼,烹饪过程中产生的气味似乎弥漫了整个屋子。他用《Bard》查找了除臭的方法,然后仔细检查了结果,以分清事实与虚构。结果发现,彻底清洁厨房并不能解决这个问题,就像聊天机器人最初说的那样。不过,在房子周围放几碗小苏打可能会有帮助。
克劳奇克告诉我,由于人们使用 Bard 的方式多种多样,所以经常不需要反复检查。(你通常不会要求它重复检查你写的一首诗,或者它起草的一封电子邮件等等)。
虽然双重校验代表了一个明显的进步,但它仍然经常需要你调出所有的引文,并确保Bard能正确解释这些搜索结果。至少在研究方面,人类仍在牵着人工智能的手,就像人工智能在牵着我们的手一样。
不过,这是一个值得欢迎的发展。
Krawczyk表示:"我们可能已经创建了第一个承认自己犯错的语言模型。鉴于这些模型的改进事关重大,确保人工智能模型准确地承认错误应该成为业界的重中之重。"
周二,Bard 获得了另一项重大更新:它现在可以连接到你的 Gmail、Docs、Drive 和其他一些Google产品,包括 YouTube 和地图。所谓的扩展功能可以让你对存储在Google账户中的文档进行实时搜索、汇总和提问。
目前,它仅限于个人账户,这大大限制了它的实用性,但作为浏览网页的另一种方式,它有时还是很有趣的--例如,当我要求它向我展示一些关于室内设计入门的精彩视频时,它就做得很好。(可以在 Bard 答案窗口中在线播放这些视频,这一点很不错。)