与人类相比,人们可能在他们写作之前发言,计算机使用语言是另一种方式
周围。语音识别比处理书面语言困难得多,这在很大程度上是因为口语音频流中固有的可变性和噪声。将“信号”与“噪音”分开并将其转换为正确的书面文字,对于人类和计算机来说是一项艰巨的任务,因为任何电视上的隐藏字幕消费者都可以证明这一点。但是将发声与背景声音分开只是问题的开始。正如这个领域的早期研究人员很快发现的那样,单词之间没有明显的断裂,这与你听别人说话时的想法相反。你如何改变音量和音调也会传达相当多的意义(语言学家称之为“韵律”)。用英语讲,
识别语音的问题与解释图片的根本区别在于,前者呈现随时间动态变化的单个变量(声波),而后者是单个点处的二维反射光的快照(可以这么说)及时。数据中包含的信息也有根本的不同。语音是一种人造工具,旨在传达一种思想或想法,这种思想或想法以特定的单词序列表示,这些单词被编码为人类产生的声音。有时,通过音调,节奏,口音,词汇等表达的额外信息可以增强这一点 – 这可能表示发言者的情绪状态,他们相对于听众的状态,或者他们的“部落归属感”。(除非在极少数情况下,
相比之下,图片是遵循物理定律的自然发生的图案。因此,可以适当地应用不同的工具和技术。
面对所有这些挑战,问题可以解决是一个奇迹。大多数早期的语音识别工作都试图通过限制词汇量来简化任务,在简化的领域(如下棋)操作,要求说话者在单词之间暂停,要么为特定的发言者设计,要么需要大量的培训课程(对于人类扬声器和机器)。22
为了在这一领域取得进展,DARPA在1971年资助了一项为期五年的连续语音识别竞赛(意思是在单词之间没有停顿),使用至少一千字的语音。任何参赛者是否成功都是一个争议问题,该机构拒绝在这个初始任期后续签资金,直到它在将近十年后于1984年恢复其兴趣.23虽然本次比赛的团队使用了各种不同的技术大多数人可以粗略地描述为试图编纂并带来各种领域的公认智慧,如语法,语音,声学和信号处理。
在20世纪80年代,一种称为隐马尔可夫模型(HMM)的统计技术被应用于语音识别问题,并取得了可喜的成果。非正式地,HMM动态地处理声音流(从左到右,可以这么说),不断地计算和更新一个或多个解释是正确答案的概率。这导致了几种商业上可用的语音识别产品,最突出的是来自Dragon Systems(现在是Nuance Communications,Inc。的一部分)的NaturallySpeaking。24虽然这一方法比以前的努力有了重大改进,但至少在其早期阶段仍然不够准确,无法广泛采用该技术。
最近,现代机器学习技术的应用 – 再次由捕获和分析大量语音样本的能力驱动 – 增加了
这些系统的精确性和实用性。2009年,多伦多大学的一组研究人员与IBM Research合作,将机器学习技术应用于问题,将错误率降低了30%。25改进的结果发现智能手机中的一个关键用途是作为发布命令和输入数据的替代方式,从而加剧了对该领域的兴趣和研究。
再一次,更强大的计算机,访问大量培训数据和机器学习技术的组合共同破解了问题并提供了具有实际和商业重要性的系统。虽然目前的计算机语音识别技术水平远低于人类演讲者,但这种技术在有限领域的实用性令人印象深刻,例如Google Voice和Apple的Siri,每个都可以在各自的公司的智能手机。