[图]志玲的声音是怎么“造”出来的?

2014年09月09日 10:09 次阅读 稿源:科大讯飞 条评论

在使用高德导航的时候,你能听到甜美的志玲在为我们播报实时路况。那么这些是怎么实现的呢?难道是预先一句一句地全部录好的吗(那得多大工作量啊)? 下面就让讯飞为大家揭开谜底

【志玲的声音其实是合成的!】

林志玲的声音是科大讯飞采用目前世界最先进语音合成技术合成出来的!

在导航应用中,对如”向左转弯”、”前方摄像头”等固定的语句可以采用原声,而对于地名、距离、速度等文字就不可能让志玲姐姐逐一录制了。

于是在开始合成之前,请志玲录了一些音频。之后的事情就交给我们研究员啦。

这些音频可不是随意说说就可以的,而是科大讯飞的研究团队为了志玲特别设计的。

除了设计均衡的发音组合、长短语句外,还专门为体现志玲的“娃娃音”增添了语气词,并结合导航应用做了偏向设计。所以能用最短的语料做出最好的效果。

就这样,没多久,“志玲”的声音就成功合成啦。

如果你以为我们只能合成志玲的声音,那可大错特错了。未来,不仅仅是明星,身边的一切声音几乎皆可合成。这也就是学界所说的“个性化合成”技术。

【一切皆可合成】

没有录音棚录制的音频材料怎么办?没关系,我们可以利用来自互联网的海量音频数据。

网络音频往往音质差、信道不统一、多个人声融合在一起。讯飞研究团队提出海量数据无监督音库制作方案(下图),综合运用讯飞公司全面而完备的语音技术力量,通过整合信号处理、说话人识别、语言模型、语音识别、自然语言处理等各方向成熟技术,以全自动无监督方法快速得到单个目标发音人的纯净音库。

2012年,研究小组从新闻联播数据里提取出康辉和李瑞英的有效音频,并以此成功搭建两位主播的语音合成系统。在当年3月的讯飞语音云发布会上,此方法模拟制作的新闻联播合成音视频震撼了很多观众。

在刚刚结束的“语音点亮生活——科大讯飞智能家庭语音产品发布会”中,讯飞将个性化语音合成技术应用到灵犀3.0之中,现场用合成的语音朗读了一段三国演义,好像真有一位评书艺术家在朗读。逼真的合成效果再次让小伙伴们都惊呆啦。

未来这一技术具有很多的应用前景,例如可以使用评书名家的声音给老人们读书讲报。用评书、武侠、言情等多样化风格为用户们读小说。

甚至可以通过语音交互的积累,自动定制你个人音色的语音合成系统;再比如自动处理家庭DV录像,将孩子们的童声童语制作成父母专属的合成系统等等……

相信随着技术的发展,所有的未来一定会变得更加生动、有趣!

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。

对文章打分

[图]志玲的声音是怎么“造”出来的?

3 (16%)
已有 条意见

    最新资讯

    加载中...

    编辑精选

    加载中...

    热门评论

      招聘

      created by ceallan