Reddit 更新了 robots.txt 文件,禁止必应和许多其他搜索引擎抓取该网站。微软的一位代表透露,"必应在 7 月 1 日更新了 robots.txt 文件后就停止了对 Reddit 的抓取,因为该文件禁止对其网站进行任何抓取。"
2024 年 7 月 1 日,Reddit 更新了 robots.txt 文件,阻止许多搜索引擎和人工智能工具抓取网站。 Reddit 并没有阻止Google抓取该网站,但确实阻止了大多数其他爬虫抓取网站。
必应因此停止抓取 Reddit 上的新内容,这就是为什么当你在必应搜索中过滤 Reddit 上周的搜索结果时,什么也看不到的原因:
微软发言人说:
"我们尊重 robots.txt 规范。必应在 7 月 1 日实施了更新的 robots.txt 文件后,就停止了对 Reddit 的抓取,该文件禁止对其网站进行任何抓取。
Reddit 发言人蒂姆-拉斯奇米特(Tim Rathschmidt)在声明中说:
"这与我们最近与Google的合作完全无关。我们一直在与多个搜索引擎进行讨论。我们无法与所有搜索引擎达成协议,因为有些搜索引擎无法或不愿就其使用 Reddit 内容(包括用于人工智能)做出可执行的承诺。
随着Reddit 与Google达成授权协议,Reddit 屏蔽了大多数其他搜索引擎对其内容的抓取。 与此同时,Google最近正努力为 Reddit 带来流量,包括在搜索结果中为其测试特殊待遇。
这不禁让人怀疑,其他大型网站是否也能尝试走这条路,而小型出版商和内容生产商又该何去何从?