搜索引擎或其他爬虫高频次抓取网站导致服务器瘫痪的案例并不少见,包括蓝点网在内的多个网站都曾遇到过这类爬虫引起网站无法正常访问。现在人工智能公司的爬虫替代搜索引擎成为整个互联网上抓取频率最高的爬虫,对某些网站来说如果没有规范设置 robots.txt 文件进行阻止那可能就会出现服务器瘫痪的情况。
例如最新的案例是乌克兰网站 Trilegangers,该网站提供海量的人体 3D 模型数据供 3D 艺术家、视频游戏开发商以及任何需要以数字方式重新真实人类特征的人购买。
尽管该网站已经在使用协议里注明未经授权禁止抓取和使用网站的所有数据,但 Trilegangers 并未正确设置 robots.txt 文件阻止包括 GPTBot 在内的爬虫。
本周六该网站瘫痪并且症状类似于 DDoS 分布式拒绝服务攻击,经过检查后发现罪魁祸首是 OpenAI 用于抓取数据训练人工智能的 GPTBot 爬虫。
Trilegangers 工作人员检查服务器日志后发现,OpenAI 派出的 GPTBot 爬虫以 600 多个不同的 IP 地址发起数以万计的请求,这些并发请求直接让服务器无法处理流量导致瘫痪。
根据 OpenAI 公布的爬虫说明,如果网站不想被 GBTBot 爬虫抓取内容,则需要在 robots.txt 里使用规范命令进行阻止,Trilegangers 网站并未设置该文件。
robots.txt 属于行业的约定俗成并非法律规范,但即便没有设置 robots.txt 文件,GPTBot 抓取数据再由 OpenAI 使用数据训练 AI 也是违法行为,因为 Trilegangers 网站本身已经禁止未经授权的使用。
另一方面 Trilegangers 使用 AWS 的服务器,由于 GPTBot 的疯狂抓取导致消耗的带宽和流量也在增加,因此 Trilegangers 也需要支付更高的服务器费用。
目前 Trilegangers 已经设置正确的 robots.txt 文件并通过 Cloudflare 阻止 GPTBot 和其他爬虫包括字节跳动的 Bytespider 爬虫的抓取,这应该可以临时解决问题。