自从第一个文本到语音(TTS)模型发布以来,研究人员一直在寻找让计算机系统产生语音的方法,微软的最新模型VALL-E是在这方面的一个重要进步。VALL-E是一个基于转换器的TTS模型,只需听到三秒钟的声音样本就能生成任何声音的语音。这比以前的模型有很大的改进,以前的模型需要更长的训练时间才能生成新的声音。
对于计算机行业来说,VALL-E是一项惊人的技术壮举,有可能改变我们与数字媒体互动的方式。语音的音调、魅力和风格都在生成的语音中保持不变,这是在使TTS系统听起来更自然方面迈出的重要一步。
微软会不会基于这项技术有更多运用目前还不清楚,然而,微软已经发布了该模型的几个实例,很明显,这是TTS技术的一个重大进步。
您可以在这里收听范例: