语音识别·重庆科技报数字报

　　插图苏盼盼

　　语音识别是一种电子信息处理功能，可称为“机器听觉”，就是用软件去听。语音识别软件通常包括录音、分析音频和数据库等部分。利用语音识别可以完成很多任务，最常见的是录入文字和人机交谈，还有依靠声纹识别的身份认证。

　　录音时，麦克风等设备是机器的“耳朵”，它把声音转成电信号并数字化。如果是文字录入，一般要求录制者说完一段话后暂停；如果是人机对话，也会有停顿和等待的过程，以便分析软件完成识别和转换。不同于录制音乐的软件，为了减少环境噪声干扰，语音采集时会突出人声，同时进行降噪过滤，而不是尽量无损记录所有音频。

　　语音识别最重要的部分也是分析软件，它就像人脑的听觉中枢。分析语音同样采用“模板对比法”，把录到的音频和数据库中存储的模板进行对比，就能认出录制者说了什么。需要注意的是，考虑到汉语有大量的同音字，所以汉语语音识别软件一般按词而不是字进行对比，以免遇到同音字时无法选择。有些软件还会把常用词组和短句的音频也加入模板，进一步提高识别的准确率。

　　语音识别软件也有“记忆中枢”，并且一般比图像识别的数据库要求高，语音识别软件的学习主要依赖反馈，即使用者对识别结果的确认和修改，这能帮助它形成有针对性的模板和快速查询方法。随着反馈不断累积，软件的“智力”越来越高，不仅能听写大部分口语，连文字交流中难以体现的语气也能识别，并用“表情符号”等方式表达出来。