VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

2023年01月10日 00:13 次阅读稿源：cnBeta.COM 条评论

自从第一个文本到语音（TTS）模型发布以来，研究人员一直在寻找让计算机系统产生语音的方法，微软的最新模型VALL-E是在这方面的一个重要进步。VALL-E是一个基于转换器的TTS模型，只需听到三秒钟的声音样本就能生成任何声音的语音。这比以前的模型有很大的改进，以前的模型需要更长的训练时间才能生成新的声音。

对于计算机行业来说，VALL-E是一项惊人的技术壮举，有可能改变我们与数字媒体互动的方式。语音的音调、魅力和风格都在生成的语音中保持不变，这是在使TTS系统听起来更自然方面迈出的重要一步。

微软会不会基于这项技术有更多运用目前还不清楚，然而，微软已经发布了该模型的几个实例，很明显，这是TTS技术的一个重大进步。

您可以在这里收听范例：

https://mpost.io/vall-e-microsofts-new-zero-shot-text-to-speech-model-can-duplicate-everyones-voice-in-three-seconds/

对文章打分

VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

4 (80%)

1 (20%)

已有条意见

编辑精选

加载中...

Top 10

本周本月

招聘

VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

对文章打分

VALL-E：微软全新文字转语音模型可以在三秒钟内复制任何人的声音

最新资讯

编辑精选

热门评论

相关文章

微软为Microsoft 365订阅用户推出Copilot for OneDrive 可以总结/对比/回答问题

微软和贝莱德联牵手马斯克xAI 共建300亿美元AI基建项目

微软与AI初创公司inait部署新模型突破性推理机制可模拟大脑

微软研发量子计算机幕后：项目曾遭否决成果被质疑“欺诈”

微软正在将 TypeScript 的构建速度提高 10 倍

微软CEO谈为何不自研大模型：全栈系统与产品落地才是核心

Top 10

SpaceX 13小时内创纪录3连发拯救被困宇航员、一箭74星

三星One UI 7官方推送将于4月7日开始符合条件的Galaxy设备列表已公布

沾上多邻国，你这辈子就完了

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

头发白了，还能变黑吗？医生的答案出乎意料

下毒迷晕再交配为避免被吃掉，雄性蓝纹章鱼手段很“下作”