语音识别研究的是如何让计算机理解人类的语音、语义。首先将一段语音(比如某人说的一句话)进行预处理,去掉噪声;然后将这段语音分成很多小段,每个小段称为一帧,识别这些帧之后,再将其组合成音素;然后将音素组合成单词,这样便实现了单个词汇的语音识别;最后在单个词汇识别基础上,便可以进一步实现词组和句子的识别。
当前,语音识别在我们的日常生活中已经有了广泛的应用:讯飞的翻译机,苹果的Siri,微软的Cortana,导航软件中通过语音设置目的地等。像《流浪地球》中不同语言间实时自动翻译的场景,在如今的现实生活中也并不少见,在国内许多大型的互联科技会议上,在配备了同声传译人员的同时,也会提供基于人工智能的语音识别和自动翻译系统,将不同国家的演讲者的演讲内容识别并翻译出来,并以多个国家的文字显示到屏幕上,方便参会者及时查看。
尽管当前的语音自动翻译还无法做到像电影中那样智能,但随着技术的进步,相信在不远的将来,即使我们身处母语以外的环境,也只需要随身带一个可以实现语音互译的自动翻译系统,即可和说不同语言的外国人进行流畅的交流。
本栏目由重庆市全民科学素质纲要实施工作办公室协办