猎豹傅盛在抖音上和机器合成的“自己”对话

2018年11月05日 17:02 次阅读 稿源:cnBeta.COM 条评论

猎豹移动董事长兼CEO傅盛在自己的抖音号上发布了一条视频,和机器人“傅盛”进行了一场几十秒的隔空对话。基于猎户星空研发的语音合成(TTS)技术,展示了对答、绕口令等交流,只要听十段话就可以“克隆”一个人的声音。

image.png

视频地址:http://v.douyin.com/RP6Xx5/

据介绍,传统的TTS系统通常包括前端、后端两个模块。前端模块主要负责对输入文本进行分析,提取语言学信息,如果是中文还涉及文本正则化、分词、词性预测、多音字消歧、韵律预测等,后端模块根据前端的分析结果,通过一定的方法生成语音波形。

后端系统的主流技术有两种,一种是基于统计参数建模的语音合成,或者叫做参数合成、参数法,优点是所需语料库少,几千句即可,训练与合成过程也都可以由程序自动完成,但缺点是语音质量不高,情感韵律平淡,如地图导航软件中的听到的明星音。

另一种是基于单元挑选和波形拼接的语音合成,或者叫做拼接合成、拼接法。与参数法相反,优点是合成语音自然度很好,缺点就是数据要求太大,至少万句语料才能满足商用需求,一些厂商会请声优为其智能产品录制语料库,前后时间长达数月,花费动辄百万。

TTS的核心在于如何降低训练成本,用更少的语料合成高质量的声音。

2017年3月,Google 提出了一种新的端到端的语音合成系统Tacotron。它可将接收的输入字符,输出成相应的原始频谱图,然后提供给Griffin-Lim重建算法生成语音。2017年底,Tacotron 2结合了WaveNet和Tacotron的优势,不需要任何语法知识即可直接输出文本对应的语音。

猎户星空TTS团队在Tactron的基础上,训练了大语料库的语音库作为基础模型,目标发音人只需要录制10段话,通过Adapt自适应模型,提取出目标发音人的特征,再通过World声码器,即可合成出目标发音人音色相同的语音。

这项技术真正落地商用后,将为明星语音、个性化语音的合成带来重大突破,减少合成成本、缩短研发周期。

除此之外,猎户星空已掌握麦克风阵列、语音唤醒、语音识别、语义理解和语音合成等全套远场语音技术,语音交互更快更准,垂直领域深度语义理解正确率96%,还首创了唤醒后人声回应。

据官方数字,搭载猎户语音合成技术的智能音箱产品在国内份额已超30%,每天都超过2000万次语音服务请求,比如小米AI助理小爱同学月活跃设备超过3000万台,累计唤醒超50亿次。

对文章打分

猎豹傅盛在抖音上和机器合成的“自己”对话

11 (79%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      Top 10

      招聘

      created by ceallan