此前,知乎为了避免内容被其他公司抓取拿去训练人工智能,不惜屏蔽除百度和搜狗以外的所有搜索引擎,甚至用户访问都乱码必须刷新页面才能正常查看内容。不过也有网友注意到现在百度百科也开始采取类似措施,百度百科包含用户撰写的海量词条内容,这些内容用于人工智能训练自然是个不错的数据集。
所以现在百度百科也将谷歌和必应等大多数搜索引擎都屏蔽掉,应该也是为了阻止这些搜索引擎和其他爬虫未经授权抓取百度百科的内容用于训练人工智能。
百度百科的 robots.txt 文件显示,目前百度百科仅支持以下搜索引擎抓取内容 (类似白名单):
百度搜索
搜狗搜索
中国搜索 (Chinaso)
YYSpider (这是哪家的爬虫蓝点网未查到)
宜搜搜索 (EasouSpider,一个很老的搜索,以前不少用户拿到它搜小说)
百度百科明确禁止抓取其内容的搜索引擎爬虫包括:
谷歌搜索
必应搜索
微软 MSN
Yisouspider (阿里巴巴旗下 UC 浏览器的爬虫)
其他一切搜索引擎
虽然 360 搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以 360 搜索和其他搜索例如 Yandex、Ecosia 等搜索也都是被屏蔽的。
当然这里的屏蔽只是君子协定,比如 360 刚刚推出 360 搜索和 360 百科时就未经百度授权抓取百度百科内容,被百度起诉后 360 辩称 robots.txt 是行业的约定俗成。
所以百度百科现在屏蔽这些搜索引擎其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练 AI。
话说回来,百度百科是根据维基百科的模式开发的,内容也都是用户撰写的,维基百科就允许任何搜索引擎抓取并且允许将其数据拿去训练 AI,不得不说某度还是格局小了。