苹果、NVIDIA、Anthropic因使用YouTube资源训练AI而陷入争议

2024年07月17日 07:32 次阅读 稿源:cnBeta.COM 条评论

包括苹果、NVIDIA、Salesforce 和 Anthrophic 在内的大型科技公司在其产品中使用了人工智能技术,它们发现自己陷入了一场新的争议。根据 ProofNews 发布的一份报告,这些公司用于训练人工智能模型的数据集包括来自 YouTube 视频的字幕。

1685625849_pexels-cottonbro-studio-5473956.jpg

名为"YouTube 字幕"的数据集于 2020 年发布,由 EleutherAI 创建。该出版物发现,数据集包含了从超过 48,000 个频道下载的 173,536 个 YouTube 视频的字幕。

首先,该数据集似乎违反了 YouTube 的条款和条件,即禁止通过"自动化手段"访问视频。据该刊物称,YouTube Subtitles 是一个 5.7GB(4.89 亿字)的训练数据集,其中包括从平台上删除的 12,000 多个视频的字幕。

从 YouTube 上获取的视频转录内容涵盖了众多创作者和频道,包括那些拥有数亿订阅者的频道和那些拥有 10 多万订阅者的频道。

Proof News 还发现了来自 YouTube 巨星的材料,包括 MrBeast(2.89 亿订阅者,拍摄了两段视频用于训练)、Marques Brownlee(1900 万订阅者,拍摄了七段视频)、Jacksepticeye(近 3100 万订阅者,拍摄了 377 段视频)和 PewDiePie(1.11 亿订阅者,拍摄了 337 段视频)。用于训练人工智能的一些材料还宣扬"平地理论"等阴谋论。

YouTube 字幕数据集隶属于一个名为"The Pile"的数据集,其中包括其他几个训练数据集。大多数"堆"数据集都对任何有足够空间和计算能力的人开放。

EleutherAI 的代表没有回应置评请求,也没有就调查结果和未经许可删除视频的指控发表评论。许多创作者也没有回应,而那些回应的创作者则声称,这些视频是在他们不知情的情况下被使用的。

ProofNews 通过搜索网上帖子和白皮书,寻找人工智能公司使用这些数据的证据,并"将数据集中的字幕与 YouTube 上的视频联系起来,以确定谁的创意素材被用于训练人工智能模型"。

不过,由于人工智能公司通常不会披露它们用于训练模型的数据,因此它无法创建一份使用该数据集的公司综合清单。

受影响的创作者之一马克斯-布朗利(Marques Brownlee)写道,他使用付费服务生成 YouTube 转录。"因此,采集转录内容的公司正在以多种方式窃取*付费*工作。这可不好,"他补充说。另一位创作者大卫-帕克曼(David Pakman)在 TikTok 上发现了一个视频,其中包含了他的一个视频的脚本,似乎只有一位评论者认出了这是假的。

请注意,苹果和其他科技公司并不是自己下载了字幕,而是用它训练了人工智能模型。然而,这一行为是人工智能不请自来的后果的一个例子。接受本刊采访的创作者们透露了他们对未来的不确定性,以及人工智能被用来模仿他们内容的可能性。

对文章打分

苹果、NVIDIA、Anthropic因使用YouTube资源训练AI而陷入争议

1 (50%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan