苹果公司发布了一份技术文件,详细介绍了其为Apple Intelligence(Apple Intelligence)开发的模型,未来几个月内,苹果将在 iOS、macOS 和 iPadOS 上推出一系列生成式人工智能功能。
在这份文件中,苹果公司反击了有关其在训练某些模型时采用了有道德问题的方法的指责,重申它没有使用私人用户数据,而是综合利用了公开数据和授权数据来开发Apple Intelligence。
"[预]训练数据集由......我们从出版商处获得授权的数据、经过策划的公开或开源数据集以及我们的网络爬虫 Applebot 抓取的公开信息组成,"苹果公司在论文中写道。"鉴于我们注重保护用户隐私,我们注意到数据混合物中不包括苹果用户的私人数据"。
今年 7 月,Proof News报道称,苹果公司使用了一个名为"The Pile"的数据集(其中包含数十万个 YouTube 视频的字幕)来训练一系列专为设备处理而设计的模型。许多字幕被卷入 The Pile 的 YouTube 创作者并不知道也不同意这样做;苹果后来发表声明称,它并不打算使用这些模型为其产品中的任何人工智能功能提供动力。
这份技术文件揭开了苹果公司在今年 6 月WWDC 2024大会上首次披露的名为"苹果基础模型(Apple Foundation Models,AFM)"的模型的神秘面纱,文件强调,AFM 模型的训练数据是以"负责任"的方式获取的--至少按照苹果公司的定义是负责任的。
AFM 模型的训练数据包括公开的网络数据以及未公开出版商的授权数据。据《纽约时报》报道,苹果公司在 2023 年底与NBC、Condé Nast 和 IAC 等多家出版商达成了价值至少 5000 万美元的多年期协议,在出版商的新闻档案中训练模型。苹果的 AFM 模型还在 GitHub 上托管的开源代码上进行了训练,特别是 Swift、Python、C、Objective-C、C++、JavaScript、Java 和 Go 代码。
在未经许可的代码(即使是开放代码)上训练模型是开发人员之间的一个争议点。一些开发者认为,一些开源代码库没有获得许可,或者在使用条款中不允许进行人工智能训练。但苹果公司表示,它对代码进行了"许可过滤",尽量只包含使用限制最少的软件源,比如那些采用 MIT、ISC 或 Apache 许可的软件源。
论文称,为了提高 AFM 模型的数学技能,苹果公司特别在训练集中加入了来自网页、数学论坛、博客、教程和研讨会的数学问题和答案。该公司还利用了"高质量、可公开获得的"数据集(论文中未提及名称),这些数据集"拥有允许用于训练......模型的许可证",并经过过滤以去除敏感信息。
总的来说,AFM 模型的训练数据集约有 6.3 万亿个词元(词元是小块数据,通常更容易被生成式人工智能模型吸收)。相比之下,这还不到 Meta 用来训练其旗舰文本生成模型Llama 3.1 405B 的代币数量(15 万亿)的一半。
苹果公司收集了更多数据,包括来自人类反馈的数据和合成数据,以微调 AFM 模型,并尝试减少任何不良行为,如泵出毒性内容。
该公司表示:"我们创建模型的目的是帮助用户在他们的苹果产品上进行日常活动。"
这篇论文中没有提供什么证据,也没有令人震惊的见解--这是精心设计的。由于竞争压力,同时也因为披露过多可能会给公司带来法律纠纷,所以这类论文很少会非常露骨。
一些公司通过搜索公共网络数据来培训模型,并声称他们的做法受到合理使用原则的保护。但这一问题仍有待商榷,而且诉讼数量也在不断增加。
苹果公司在论文中指出,它允许网站管理员阻止其爬虫搜索他们的数据。但这让个人创作者陷入困境。举例来说,如果一个艺术家的作品集存放在一个拒绝阻止苹果数据抓取的网站上,他该怎么办?
法庭之争将决定人工智能生成模型及其训练方式的命运。不过目前,苹果正试图将自己定位为一个有道德的企业,同时避免不必要的法律审查。
了解更多:
https://machinelearning.apple.com/papers/apple_intelligence_foundation_language_models.pdf