专题栏目:ARVRMR虚拟现实

完整的语音识别技术分为哪三部分?

一个完整的语音识别系统可大致分为以下三个部分。

(1)语音特征提取。其目的是从语音波形中提取出随时间变化的语音特征序列。

(2)声学模型与模式匹配(识别算法)。声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。

(3)语言模型与语言处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。

一般来说,语音识别的方法有3种:基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。

(1)基于声道模型和语音知识的方法起步较早,在语音识别技术提出的初期,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。

(2)模式匹配的方法发展比较成熟,目前已达到了实用的阶段。在模式匹配方法中,要经过特征提取、模式训练、模式分类和判决三个步骤。常用的技术有动态时间归正、隐马尔可夫理论和矢量量化技术三种。

(3)利用人工神经网络的方法是20世纪80年代末期提出的一种新的语音识别方法。人工神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。

内容来源:苗志宏《虚拟现实技术基础与应用》

发表评论

相关文章