Reddit CEO表态坚决反对AI公司无偿采集内容用于培训

2024年08月02日 08:01 次阅读 稿源:cnBeta.COM 条评论

Reddit 一直在采取行动,打击为人工智能训练目的而疯狂抓取其网站的公司。Reddit的理念是,人工智能公司利用自己并不拥有的资源开发大型语言模型,可以从中获利数百万甚至数十亿美元。这就好比有人从伐木场拿走两乘四的木料盖房子,只因为院子里没有上锁的大门。但这个问题远远超出了 Reddit 的范畴,也是开放网络迄今为止如何运作的核心问题。

2024-08-01-image-25-j.webp

机器人排除协议是一种网络标准,用于控制和管理网络爬虫和机器人对网站的访问。它由 robots.txt 文件定义,告诉搜索引擎网站的哪些部分可以被抓取或索引,帮助网站管理员保护敏感内容并有效管理流量。不过,它是在荣誉系统上运行的,几乎没有强制执行的方法。

上周,Ars Technica 报道称,除了Google之外,Reddit 的帖子没有出现在任何搜索引擎中。Reddit 已经与Alphabet签订了一份价值 6000 万美元的授权协议,将其内容用于培训,这并不是什么大秘密,与此同时,在过去一年里,Reddit 在Google搜索中的排名越来越靠前(交换条件,或许不是......)。

该公司最近还通知用户,它更改了 robots.txt 文件,以排除没有权限访问其数据的机器人和爬虫。Reddit 首席执行官史蒂夫-赫夫曼(Steve Huffman)说,他相信互联网是开放的,但现在有公司利用搜索引擎网络爬虫来搜刮信息以牟利,这与它们的历史用途大相径庭。"赫夫曼告诉 The Verge:"我认为,搜索引擎的传统价值交换方式已经改变。搜索和总结、培训正在融合,以抓取换取流量回流的价值交换正变得泥沙俱下."

2024-08-01-image-27-j_1100.webp

赫夫曼说,在这一点上,阻止不愿为数据采集付费的公司一直是"非常麻烦的事情",这也促使 Reddit 对 robots.txt 进行了修改。在大多数情况下,公司都尊重 Reddit 的意愿,包括微软、Anthropic 和 Perplexity 在内的几家公司已经就授权其内容进行了谈判。

霍夫曼说,让他最头疼的问题是,一些公司在获取 Reddit 的数据后,又通过其 API 将这些数据卖给了其他人工智能公司。他特别提到微软人工智能首席执行官穆斯塔法-苏莱曼(Mustafa Suleyman)最近将互联网上的所有公共数据比作"免费软件"。

赫夫曼说:"微软、Anthropic 和 Perplexity 都表现得好像互联网上的所有内容他们都可以免费使用。这就是他们的真实立场。"虽然微软必应已经很客气地尊重了 Reddit 屏蔽其爬虫的决定,但该公司还是不忘嘲讽一番。

图片.png

"Reddit阻止必应抓取他们的网站进行搜索,偏向于另一个搜索引擎,影响了必应和必应驱动的引擎的竞争,"微软发言人凯特琳-罗斯顿(Caitlin Roulston)上周表示。"我们尊重那些不希望其网页内容被我们的生成式人工智能模型使用的网站所提供的指示。"

到目前为止,Google和OpenAI是 Reddit 白名单上唯一的搜索引擎。如果其他引擎返回的只是过期的 Reddit 内容,那么它们就没有遵守网站的 robots.txt 文档。

Reddit 通过这些授权交易从用户生成的内容中获利,一方面,丰厚的费用并没有落入 Reddit 论坛社区成员的口袋。另一方面,这些授权协议与其他公司的授权协议并无太大区别。

OpenAI 已经向 Dotdash Meredith、Axel Springer、Associate Press 和《大西洋月刊》等大型出版商支付了许可费。这些出版商是否会通过加薪或奖金的方式将这些利润转嫁给他们的作者,这一点尚未得到证实,但值得怀疑。这样做对吗?不,法院仍在对这一史无前例的行为进行裁决。不过,在这一点上,这是理所当然的。

而这个问题并不局限于 Reddit,而是所有在线出版商,无论大小。在反对人工智能训练滥用的竞赛中,Reddit 是少数几家有实力和影响力与人工智能公司叫板的公司之一。在大型媒体公司努力实现货币化并达成协议的同时,互联网的其他部分却在苦苦挣扎。事实上,一些子论坛拥有自己的机器人,它们会从原始来源复制和粘贴整个书面内容,并将其显示为主题中的第一条评论,这实际上是在复制内容,然后将其出售给人工智能公司。

在制定管理条例之前,人工智能淘金热就像 1848 年的加州淘金热一样。人工智能公司将继续蜂拥而至,把人工智能产品塞进每个人的喉咙,以获取利润或收集更多数据。与此同时,像 Reddit 和 Vox 这样的公司也会继续把铲子递给他们。

对文章打分

Reddit CEO表态坚决反对AI公司无偿采集内容用于培训

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan