Google刚刚宣布,它将为网站出版商提供一种方法,让他们可以选择不将其数据用于训练公司的人工智能模型,同时继续通过Google搜索进行访问。这个名为Google-Extended的新工具允许网站继续被Googlebot等爬虫抓取和编入索引,同时避免其数据被用于训练该公司现在和未来的人工智能模型。
该公司称,Google-Extended 将让发布商"管理其网站是否有助于改进 Bard 和 Vertex AI 生成 API",并补充说,网络发布商可以使用切换键"控制对网站内容的访问"。Google今年 7 月证实,它正在利用从网上搜刮的公开数据训练其人工智能聊天机器人 Bard。
Google-Extended可通过robots.txt(网站根目录的文本文件,用于告知网络爬虫是否可以访问某些网站)使用。Google指出,"随着人工智能应用的扩展",它将继续探索"更多机器可读的方法,为网络发布者提供选择和控制",并将很快分享更多信息。
目前,许多网站已经开始屏蔽 OpenAI 用来抓取数据和训练 ChatGPT 的网络爬虫,其中包括《纽约时报》、CNN、路透社和 Medium。不过,如何屏蔽Google一直是个问题。毕竟,网站不能完全关闭Google的爬虫,否则就无法在搜索中被收录。这使得《纽约时报》等一些网站通过更新服务条款,禁止公司使用其内容训练人工智能,从而从法律上封杀Google。