NVIDIA展示可修改声音和生成新声音的AI模型 Fugatto

英伟达周一展示了一种用于生成音乐和音频的新型人工智能模型，该模型可以修改声音并生成新奇的声音--该技术面向音乐、电影和视频游戏的制作者。该技术被称为 Fugatto，是 Foundational Generative Audio Transformer Opus 1 的缩写。

该技术与 Runway 等初创公司和 Meta 等大型公司展示的其他技术一样，可以根据文本提示生成音频或视频。

总部位于加利福尼亚州圣克拉拉的 NVIDIA 版本可以根据文字描述生成音效和音乐，包括新奇的声音，例如让小号发出狗叫声。

它与其他人工智能技术的不同之处在于，它能够接收并修改现有音频，例如将钢琴演奏的乐句转换成人声演唱的乐句，或者将口语录音改变口音和表达的情绪。

NVIDIA 公司应用深度学习研究副总裁布莱恩-卡坦扎罗（Bryan Catanzaro）说："如果我们想想过去 50 年的合成音频，现在的音乐听起来已经不同了，因为有了计算机，因为有了合成器。我认为，生成式人工智能将为音乐、视频游戏和想要创造事物的普通人带来新的能力。"

虽然OpenAI等公司正在与好莱坞电影公司就是否以及如何将人工智能用于娱乐业进行谈判，但科技公司与好莱坞之间的关系已经变得紧张，尤其是在好莱坞明星斯嘉丽-约翰逊指责OpenAI模仿她的声音之后。

NVIDIA 的新模型是在开源数据的基础上训练出来的，该公司表示仍在讨论是否以及如何将其公开发布。

卡坦扎罗说："任何生成技术都有一定的风险，因为人们可能会利用它生成我们不希望他们生成的东西。我们需要对此小心谨慎，这也是我们没有立即发布这一技术的计划的原因。"

生成式人工智能模型的创建者尚未确定如何防止技术被滥用，例如用户生成错误信息或通过生成受版权保护的角色侵犯版权。

OpenAI 和 Meta 同样没有透露它们计划何时向公众发布可生成音频或视频的模型。

最新资讯