2017 年年底,搜狗在乌镇“世界互联网大会”上发布了通过唇语识别辅助提升语音识别准确率的初步成果,成为业内首家。近日,搜狗宣布发展一年多的唇语识别模型的准确率,跟最初的 50%~60% 相比已有很大提升,并达到了可以将原本独立发展的唇语和语音识别结合起来,形成“多模态”识别的水平。
搜狗于 2016 年 4 月 22 日捐赠1.8亿元给王小川的母校清华大学,联合成立“清华大学天工智能计算研究院”,致力于人工智能领域的前沿技术研究。本次公布的语音和唇语的多模态识别正是由该联合研究院主导。
相关论文《基于模态注意力的端到端音视觉语音识别》在今年 5 月 12-17 日召开的国际声学、语音与信号处理会议(ICASSP)发表,这是由 IEEE 主办的国际语音识别、信号处理学界的顶级会议。
搜狗方面对国内科技媒体“量子位”介绍了论文主要内容。据介绍,将唇语识别加入单纯的语音识别,需要克服两个主要问题:一是协调音视频的不同帧率(一般音频为 100fps,视频为 24fps),二是合理确定音频和唇语内容对整个识别结果分别贡献多大比例。
显然,这一比例绝不应该是固定下来的。有的时候,语音非常清晰可辨,此时视频内容搞不好反而带来干扰;另一些时候,语音比较模糊,这时才应该合理提升唇语识别的比重。搜狗采用名为“基于注意力的编码器 / 解码器”的方法来动态确定当前时刻混用唇读和语音识别的比例。
搜狗方面表示,该论文去年 6 月立项,10 月完成投递,其中接近一半时间用来处理比例问题。
在语音清晰可辨的环境中,视频的“注意力权重”约为 35.9%。当信噪比为 0dB(即噪音音量跟信号声音差不多大)时,视频的“注意力权重”提升到接近40%,此时“多模态识别”的准确率相比清晰环境提高了30%。
在一段演示中,人们模拟在地铁运行环境中说话,同时记录下口型。单纯识别语音的结果是“北京今天天气走”,单纯识别唇语的结果是“嗯北京今天天气怎么样”,合起来即可得到正确结果“北京今天天气怎么样”。
语音交互技术中心首席科学家陈伟预计,结合视频读唇的语音识别可能会用于未来的搜狗手机输入法,及结合了摄像头的汽车车机导航等环境(也就意味着届时输入法将请求摄像头权限以提升识别准确率)。
更具体的论文细节可以从原报道获得。