Google称,公司的一个新文本到图像的人工智能击败了竞争对手。据悉,该程序被称为Imagen,它接收文本--如“一张戴着牛仔帽和红色衬衫的波斯猫在海滩上弹吉他的照片”--并输出结果。Imagen可以生成逼真的图像或艺术化的渲染。
Imagen是继DALL-E、VQ-GAN+CLIP和Latent Diffusion Models等其他文本-图像生成器之后的又一成果。Google表示,当被要求比较由Imagen和其他文本-图像生成器所生成的图像时,人们发现其模型在准确性和图像保真度方面都要优于竞争对手。
Google在其Imagen网站上分享了几个文本提示和AI创建的图像的例子,但这些可能只代表其产生的最佳结果。Google拒绝对这一事件发表评论。
文本-图像学习模型显示了机器学习系统的力量。在这种情况下,Imagen消除了知道如何使用Photoshop等专业软件来创建抽象图像的必要性。正如本月初在GoogleI/O大会上指出的那样,AI系统正在帮助该公司接近其环境计算的未来愿景。环境计算是指有一天人们能直观地使用计算机而无需特定的系统或代码知识。
然而Google并没有忽视文本到图像的人工智能的力量,该公司选择不向公众发布Imagen。Imagen从互联网上搜刮信息从而学习和创造图像。由于互联网可能充满了陈规定型观念和偏见,这些最终会出现在Imagen中。Google表示,这些偏见包括对浅色肤色的偏爱和某些西方性别定型观念。该公司还担心,Imagen可能被不良行为者消极利用。
Google发表的一份白皮书称:“生成方法可以被用于恶意目的--包括骚扰和错误信息的传播,并引起许多关于社会和文化排斥和偏见的担忧。”
Google告诫其他AI制造商,在没有密切关注AI被训练的信息的情况下,对向公众发布文本-图像模型要保持警惕。