猎豹傅盛在抖音上和机器合成的“自己”对话

猎豹移动董事长兼CEO傅盛在自己的抖音号上发布了一条视频，和机器人“傅盛”进行了一场几十秒的隔空对话。基于猎户星空研发的语音合成（TTS）技术，展示了对答、绕口令等交流，只要听十段话就可以“克隆”一个人的声音。

视频地址：http://v.douyin.com/RP6Xx5/

据介绍，传统的TTS系统通常包括前端、后端两个模块。前端模块主要负责对输入文本进行分析，提取语言学信息，如果是中文还涉及文本正则化、分词、词性预测、多音字消歧、韵律预测等，后端模块根据前端的分析结果，通过一定的方法生成语音波形。

后端系统的主流技术有两种，一种是基于统计参数建模的语音合成，或者叫做参数合成、参数法，优点是所需语料库少，几千句即可，训练与合成过程也都可以由程序自动完成，但缺点是语音质量不高，情感韵律平淡，如地图导航软件中的听到的明星音。

另一种是基于单元挑选和波形拼接的语音合成，或者叫做拼接合成、拼接法。与参数法相反，优点是合成语音自然度很好，缺点就是数据要求太大，至少万句语料才能满足商用需求，一些厂商会请声优为其智能产品录制语料库，前后时间长达数月，花费动辄百万。

TTS的核心在于如何降低训练成本，用更少的语料合成高质量的声音。

2017年3月，Google 提出了一种新的端到端的语音合成系统Tacotron。它可将接收的输入字符，输出成相应的原始频谱图，然后提供给Griffin-Lim重建算法生成语音。2017年底，Tacotron 2结合了WaveNet和Tacotron的优势，不需要任何语法知识即可直接输出文本对应的语音。

猎户星空TTS团队在Tactron的基础上，训练了大语料库的语音库作为基础模型，目标发音人只需要录制10段话，通过Adapt自适应模型，提取出目标发音人的特征，再通过World声码器，即可合成出目标发音人音色相同的语音。

这项技术真正落地商用后，将为明星语音、个性化语音的合成带来重大突破，减少合成成本、缩短研发周期。

除此之外，猎户星空已掌握麦克风阵列、语音唤醒、语音识别、语义理解和语音合成等全套远场语音技术，语音交互更快更准，垂直领域深度语义理解正确率96％，还首创了唤醒后人声回应。

据官方数字，搭载猎户语音合成技术的智能音箱产品在国内份额已超30％，每天都超过2000万次语音服务请求，比如小米AI助理小爱同学月活跃设备超过3000万台，累计唤醒超50亿次。

对文章打分

猎豹傅盛在抖音上和机器合成的“自己”对话

最新资讯

编辑精选

热门评论

相关文章

海外被下架回国难突围猎豹还有未来吗？

营收净利被“腰斩”，市值剩2亿多美元的猎豹移动变“龟速”？

受猎豹移动拖累谷歌Play商店下架安兔兔基准测试应用

猎豹移动产品被谷歌下架：股价跌17% 市值降至4亿美元

猎豹移动约45款应用被谷歌下架，回应称未被提前告知合规标准

傅盛致猎豹移动全员信：齐心打一场经济“保卫战”

Top 10

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

婉拒马斯克现在不回来特朗普阴阳滞留太空美宇航员：希望擦出爱的火花

亚洲最大露天煤矿百米厚煤层足足开采了118年古代植物咋都埋那了？

消息称中国开发出国产EUV工具挑战ASML的垄断地位

OpenAI发布最新论文：DeepSeek和Kimi发现了o1的秘密