本周早些时候,一项调查详细指出,苹果和其他科技巨头曾使用 YouTube 字幕来训练他们的人工智能模型。其中包括来自 MKBHD、MrBeast等的 17 万多个视频。然后,苹果公司使用这个数据集来训练其开源的 OpenELM 模型,这些模型早在四月份就已经发布了。
不过,苹果公司现已证实,OpenELM 并不支持其任何人工智能或机器学习功能,包括 Apple Intelligence。
苹果公司表示,它创建OpenELM 模型的目的是为研究社区做出贡献,并推动开源大型语言模型的开发。过去,苹果公司的研究人员曾将 OpenELM 描述为"最先进的开放式语言模型"。据苹果公司称,OpenELM 仅用于研究目的,而非用于支持其任何Apple Intelligence功能。该模型以开源方式发布,可广泛获取,包括在苹果的机器学习研究网站上。
由于 OpenELM 并未作为 Apple Intelligence 的一部分使用,这意味着"YouTube 字幕"数据集并未被用于 Apple Intelligence 的训练工作。过去,苹果曾表示,Apple Intelligence模型是"在授权数据(包括为增强特定功能而选择的数据)以及我们的网络爬虫收集的公开数据"上训练出来的。
最后,苹果公司还表示,它没有计划构建任何新版本的 OpenELM 模型。
正如《连线》本周早些时候报道的那样,包括苹果、Anthropic 和英伟达在内的公司都使用了这个"YouTube 字幕"数据集来训练它们的人工智能模型。这个数据集是非营利组织 EleutherAI 的一个名为"The Pile"的大型数据集的一部分。