让语音搜索更快,更精确!

382

2012年,我们将深层神经网络(DNNS)作为核心技术用于语音建模。
至此,Google语音搜索迎来新转折。

如今,我们采用了连接时序分类技术(CTC)和序列判别训练技术(Sequence discriminative training)构建了更为有效的神经网络声学模型。

上述模型是递归神经网络技术(RNNS)的一个专门延伸技术,特别是在噪音环境下,运算更精确,速度极快!

在传统语音识别软件中,当用户说出“museum”(/mju:’zem/)时,要辨别/j/音何时结束,/u/音何时开始可能会很困难。但事实上,识别软件并不在意两个音在何处过渡:它在意的是用户是否发出了这些音。

改进的声学模型基于递归神经网络技术(RNNS)。

在上一个例子中,当用户发出/u/音时,其实发声器官已经发出了/j/音和/m/音,而RNNS技术能够捕捉到这一点。这样大大提高了我们语音识别软件的性能。
当拥有了这样一个更精确更快速的声学模型后, 我们非常兴奋地将其运用在语音设备上。
但问题是,该模型在音素预测(phoneme predictions)方面会出现300毫秒的延迟。 

为了解决这一问题,我们训练该模型在输出音素预测上与实时语音时间尽可能的接近。

目前,安卓和iOS系统上的语音搜索命令均采用这一声学模型,安卓设备则同时兼备听写功能。除了需要的计算资源更少,该新模型还更准确、更抗噪、反应更快。
来源:谷歌黑板报

当前文章:Search » 让语音搜索更快,更精确!