继日前 Meta 宣布 Make-A-Video 之后,Google 今天宣布了 Imagen Video 人工智能系统,可以根据简短文本内容(例如泰迪熊洗碗)生成视频片段。虽然目前生成的短视频清晰度不够,但 Google 声称 Imagen Video 是朝着具有“高度可控性”和世界知识的系统迈出的一步,包括生成镜头的能力在一系列艺术风格中。
事实上通过文本生成短视频并不是什么新鲜事情,今年早些时候,清华大学和北京人工智能研究院的一组研究人员发布了 CogVideo,它可以将文本翻译成相当高保真的短片。但 Imagen Video 似乎是对先前最先进技术的重大飞跃,显示了现有系统难以理解的动画字幕的能力。
马修·古兹迪亚(Matthew Guzdial)通过邮件表示:“这显然是重大改进。正如您从视频示例中看到的那样,即使通信团队选择了最佳输出,仍然存在奇怪的模糊和人为因素。所以这绝对不会很快直接用于动画或电视中。但它或类似的东西肯定可以嵌入工具中,以帮助加快某些事情的速度”。
Imagen Video 建立在 Google 的 Imagen 之上,这是一个可与 OpenAI 的 DALL-E 2 和 Stable Diffusion 相媲美的图像生成系统。 Imagen 是所谓的“扩散”模型,通过学习如何“破坏”和“恢复”许多现有数据样本来生成新数据(例如视频)。当它输入现有样本时,该模型可以更好地恢复之前破坏的数据以创建新作品。