生成式人工智能服务可以生成高质量的视觉拼凑,但通常相当缓慢。麻省理工学院和 Adobe 公司的研究人员针对这一耗时问题开发出了一种潜在的解决方案,即一种对图像质量影响最小的全新超快速图像生成方法。该技术每秒可生成约 20 幅图像。
图像生成人工智能通常采用一种称为扩散的过程,通过几个采样步骤来完善视觉输出,以达到最终希望"逼真"的结果。研究人员表示,扩散模型可以生成高质量的图像,但需要数十次前向传递。
Adobe 研究中心和麻省理工学院的专家们正在引入一种名为"分布匹配蒸馏"(DMD)的技术。这一程序将多步扩散模型简化为一步图像生成解决方案。由此产生的模型可以生成与Stable Diffusion 1.5 等"传统"扩散模型相当的图像,但速度要快上几个数量级。
"我们的核心理念是训练两个扩散模型,不仅能估计目标真实分布的得分函数,还能估计假分布的得分函数。"研究人员称,他们的模型可以在现代 GPU 硬件上每秒生成 20 幅图像。
上面的视频短片重点介绍了 DMD 与 Stable Diffusion 1.5 相比的图像生成能力。标清每幅图像需要 1.4 秒,而 DMD 只需几分之一秒就能生成类似的图像。虽然在质量和性能之间有所权衡,但最终结果仍在普通用户可接受的范围之内。
该团队发表的关于新渲染方法的文章展示了使用 DMD 生成图像结果的更多示例。它比较了稳定扩散和 DMD,同时提供了生成图像的重要文字提示。主题包括通过虚拟数码单反相机镜头取景的一只狗、多洛米蒂山脉、森林中一只神奇的鹿、一只鹦鹉宝宝的 3D 渲染、独角兽、胡须、汽车、猫,甚至更多的狗。
分布匹配蒸馏法并不是第一种用于生成人工智能图像的单步方法。Stability AI 公司开发了一种被称为逆向扩散蒸馏(ADD)的技术,用于实时生成 100 万像素的图像。该公司通过 ADD 训练其 SDXL Turbo 模型,在单个 NVIDIA A100 AI GPU 加速器上实现了仅 207 毫秒的图像生成速度。Stability 的 ADD 采用了与麻省理工学院的 DMD 类似的方法。