Ambient Diffusion 是一种文本到图像的人工智能模型,它通过使用严重破坏的图像来保护艺术家的版权。
文本到图像生成器的一个大问题是,它们能够复制用来训练它们的原创作品,从而侵犯艺术家的版权。根据美国法律,如果你创作了原创作品并将其"固定"为有形的形式,你就拥有了它的版权--字面意思是复制它的权利。在大多数情况下,未经创作者授权,不得使用受版权保护的图片。
今年5 月,Google母公司 Alphabet 遭到一群艺术家的集体版权诉讼,声称Google未经许可使用了他们的作品来训练其人工智能图像生成器 Imagen。Stability AI、Midjourney 和 DeviantArt(它们都使用了 Stability 的 Stable Diffusion 工具)也面临着类似的诉讼。
为了避免这个问题,德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员开发了一种基于扩散的生成式人工智能框架,该框架只对已损坏到无法识别的图像进行训练,从而消除了人工智能记忆和复制原创作品的可能性。
扩散模型是一种先进的机器学习算法,它通过向数据集逐步添加噪声来生成高质量的数据,然后学习逆转这一过程。最近的研究表明,这些模型可以记忆训练集中的示例。这显然会对隐私、安全和版权产生影响。这里有一个与艺术品无关的例子:人工智能需要接受 X 光扫描训练,但不能记住特定病人的图像,否则就会侵犯病人的隐私。为了避免这种情况,模型制作者可以引入图像损坏。
研究人员利用他们的环境扩散框架证明,只需使用高度损坏的样本,就能训练扩散模型生成高质量的图像。
根据"干净"(左)和损坏(右)的训练图像生成的环境扩散输出结果
上图显示了在使用损坏时图像输出的差异。研究人员首先用 CelebA-HQ 高质量名人图片数据库中的 3000 张"干净"图片对模型进行了训练。根据提示,该模型生成的图像与原图几乎完全相同(左图)。然后,他们使用 3000 张高度损坏的图像对模型进行了重新训练,其中多达 90% 的单个像素被随机屏蔽。虽然模型生成的人脸栩栩如生,但结果却大相径庭(右图)。
UT奥斯汀分校计算机科学教授亚当-克里万斯(Adam Klivans)是这项研究的共同作者,他表示:"从黑洞成像到某些类型的核磁共振成像扫描,基本上任何昂贵或不可能拥有全套未损坏数据的研究都会如此。"
与现有的文本到图像生成器一样,其结果并非每次都完美无缺。关键是,艺术家们知道像 Ambient Diffusion 这样的模型不会记住并复制他们的原创作品,就可以稍稍放心了。它能阻止其他人工智能模型记住并复制他们的原始图像吗?不会,但这就是法院的职责所在。
研究人员已将他们的代码和环境扩散模型开源,以鼓励进一步的研究。可在GitHub 上查阅。
该研究发表在预印本网站arXiv 上。