创意产业需要源源不断的内容才能让粉丝们满意,而这些内容需要以某种方式创建。说到三维模型,人工智能算法可以提供很大的帮助,缩短生成时间。通过使用一个大型数据集来训练机器学习算法,Adobe 公司和澳大利亚国立大学的研究人员创造出了一种技术,可以在 3D 模型创建方面创造奇迹。
研究人员创建了首个大型重建模型(LRM),他们认为该模型能够通过单张二维图像预测三维模型的形状,而且只需 5 秒钟即可完成。
研究人员在论文中解释说,以前的三维生成模型是在专注于单一图像类别的小规模数据集上进行训练的。相反,他们的 LRM 模型具有高度可扩展性、基于变换器的架构,拥有 5 亿个可学习参数,并已在 Objaverse 和 MVImgNet 数据集中的约 100 万个 3D 物体上进行了训练。
研究人员解释说,大容量模型和大规模训练数据的结合为 LRM 算法提供了"高度通用"的内容创建能力。论文称,该模型能够从包括真实世界照片在内的各种测试图像中生成"高质量"的三维重建。此外,LRM 还能将"正常"图像和由 DALL-E 和 Stable Diffusion 等人工智能服务生成的视觉拼凑图像作为其输入二维模型。
该研究的第一作者洪一聪认为,LRM 是单图像三维重建领域的重大突破。这种人工智能算法可以从视频或形状图像中生成详细的几何图形,并保留木纹等复杂纹理。
研究人员指出,LRM 具有潜在的"变革"能力,可以应用于设计、娱乐和游戏等众多行业。设计师或三维艺术家可以简化三维建模过程,大大缩短生成视频游戏或动画资产所需的时间。在快速发展的行业中创建三维内容已成为一项挑战,人工智能公司正急于提供潜在的解决方案,如 Stability AI 最近推出的 Stable 3D 服务。
LRM 还能使 3D 建模的工作普及化,因为"普通"用户有可能通过智能手机拍摄的照片制作出高度精细的模型。尽管 LRM 仍面临挑战,例如图像隐藏部分的纹理模糊,但它为创意和商业机会开辟了广阔天地。研究人员提供了一个页面,上面有视频演示和交互式 3D 网格,展示 LRM 目前能做什么: