来自 404 Media 的一份报告称,基于人工智能的视频生成软件 Jupiter 一直在使用从 YouTube 和其他来源广泛搜刮的视频数据库来训练其模型。Jupiter 由 Runway AI 公司运营,这是一家市值 15 亿美元的初创公司,获得了Google和英伟达等业内巨头的资金支持。
Runway AI 的联合创始人
404 收集的数据包括一份电子表格,其中列出了全球最大的一些媒体集团和内容创作者的 YouTube 频道,以及托管盗版内容的网站和指向特定视频的链接。
一位匿名人士告诉本刊,该电子表格是"全公司"从互联网上搜刮内容的努力的一部分,该报道是有关公司在不支付任何费用的情况下使用创作者数据进行模型训练的一系列争议中的最新事件。
消息来源称,电子表格被用于向通过代理下载视频的爬虫提供数据。详情显示,所谓的电子表格包含 Netflix、迪斯尼、索尼、皮克斯、Vice News 和其他知名媒体的 YouTube 频道链接。它还关注内容创作者,如流行的苹果视频博主马克斯-布朗利(Marques Brownlee)和生活博客博主凯西-尼斯塔特(Casey Neistat)。
除了电子表格,404 媒体还联系到了一位自称曾在《Runway》工作过的消息人士。虽然此人的身份是保密的,但他们提供了公司内部如何使用电子表格来训练视频生成人工智能模型的关键细节。
据他们称,Runway 使用电子表格为一个开源软件提供内容,该软件可以从 YouTube 采集内容。除了频道之外,电子表格还链接了特定视频的链接,作为"全公司努力寻找优质视频来构建模型"的一部分。
Runway没有回应404的置评请求,Google则将该刊物转到了其今年早些时候的声明上,当时Google在4月份评论说,OpenAI的Sora视频生成器使用YouTube视频来训练其模型违反了YouTube的规则。
据消息来源称,据称 Runway 还让员工通过关键词筛选出视频,这些关键词侧重于特定类型的内容。视频还根据主题进行分类,例如动画短片和学生电影。搜索范围不仅限于 YouTube,经营盗版内容的网站也是目标。
Jupiter 是 Runway Gen-3 模型的内部代号,404 的 Gen-3 测试提示生成的内容与据称从 YouTube 搜来的视频类似。该出版物补充说,在联系 Runway 征求意见后,该模型停止生成这些视频。
Runway 是较受欢迎的人工智能视频生成公司之一。其最新一轮融资是去年 6 月的 C 轮融资,公司估值达 15 亿美元。同月,它还入选了美国《时代》周刊"最具影响力的 100 家公司",该榜单上有超过 12 家人工智能公司。