能中英双语实时复述的智能读唇模型英国科学家研究出可穿戴式脑扫描仪我国首家人工智能机器人博物馆落户远东理工学院我国获得智能动态防雷国际标准制定权
第12版:科技服务·AI
上一版 下一版  
能中英双语实时复述的智能读唇模型
英国科学家研究出可穿戴式脑扫描仪
我国首家人工智能机器人博物馆落户远东理工学院
我国获得智能动态防雷国际标准制定权
     
 
重庆日报 | 重庆日报农村版 | 重庆科技报
重庆日报报业集团主办 
3上一篇  下一篇4  
2020 年 01 月 02 日 星期 放大 缩小 默认  

能中英双语实时复述的智能读唇模型

金木

  近年来,随着深度学习和大数据应用的发展,AI读唇的研究也取得了前所未有的进步。AI读唇可用于帮助深受听力障碍困扰的患者,改善嘈杂环境中的语音识别等,具有巨大的潜力。

  帮助听力障碍者读懂唇语

  随着人工智能系统被赋予越来越多的功能,它将帮助我们解决更多问题。AI读唇正成为听力障碍患者的耳朵,帮助他们“听到”原本消失在耳朵里的声音。

  据统计,目前全世界约有4.66亿人不幸患有听力障碍,大约占到了世界人口的5%。根据世界卫生组织的预估,到2050年,这个数字将会攀升至9亿。大多数患有听力障碍的人交流时会存在困难,手语是其中的一种交流方式。如何帮助听力障碍患者和聋哑人与外界交流,是很多人都在关注的问题。交流首先要解决的是“听懂”别人的话,手语和唇语都可以作为一种相互理解的方法。听障患者通过读唇语得以获取信息,但是这个技能需要长时间的练习,并且即使掌握了识别率也很低。

  将“读唇术”交给AI实际上已经不是什么新鲜事了,早在2016年,谷歌deepmind和牛津大学的研究人员就开发了名为Lipreading视频标注系统,准确率达95.2%,远远优于受训的读唇者。2018年哥伦比亚大学研究团队开发了大型视觉语音识别系统。为了追求更高性能的系统,近日,阿里巴巴、浙江大学和斯蒂文斯理工学院的研究人员共同开发出名为LIBS(Lip by Speech)的算法,在将从语音识别中提取出来的特征当作补充材料,其准确率达业界领先水平,同时还针对目前最大的普通话唇语语料库CMLR进行了训练,读懂中文也不在话下。

  人工智能如何学会读唇

  机器读唇很困难,因为它需要从视频中提取时空特征(位置和运动都很重要)。现大多数机器学习系统只能进行单词分类,而不进行句子级的序列预测。LIBS的研究者表示,这个系统在两个基准上管理着行业领先的准确性,在字符错误率上分别比基准高出7.66%和2.75%,能帮助有一定听力障碍的人群观看无字幕的视频。

  LIBS可以从视频中的多个层次提取有用的音频信息,包括在序列层、语境层和帧数层。将提取的数据与视频数据对齐,识别对应部分(由于样本数量和缺失值不同,可能存在开头或结尾部分的视频和音频序列长度不一致的情况),并采用特定的筛选方法对有用特征数据进行了提纯。

  LIBS的语音识别和唇语识别都是基于注意力机制的“序列到序列”模型,这是一项机器翻译方法,将序列(例如音频或视频序列)输入转化为标签和注意值的输出。值得注意的是,序列到序列模型在自动语音识别(ASR)领域越来越受欢迎,因为它将传统ASR系统的独立组件折叠成了单一的神经网络。总的来说,LIBS通过引入一种新的过滤策略来从语音识别器中提取特征,并通过采用基于交叉模式对齐的方法,来进行帧级知识提取,从而解决两个序列之间采样率不一致的问题,以实现准确的唇语识别。

  研究人员分别使用LRS2和CMLR数据集在上述模型中训练,LRS2数据集中包含45000条来自BBC的句子音频,而CMLR来源于中国网络电视网,是包含100000条以上自然语言句子的最庞大的普通话唇语语料库(包括3000个以上的汉字和20000条以上的词组)。

  句子越长读得越准确

  LIBS的研究团队发现,模型在使用过短句子(如LRS2数据集)进行预训练时得到的结果不大理想,因为解码器从少于14个字母的句子中提取有效信息的难度较大。然而,一旦模型使用最大长度为16个单词的句子进行预训练,解码器由于获得了语境层的知识,对LRS2数据集的句末解码质量有了显著提高。

  早在1982年,就有Easton和Basala的研究表明,人的唇读能力会随着长单词的出现而增强,这表明了在模糊的沟通渠道中,上下文之间的特征词句捕捉时间的重要性。2016年的LipNet模型也是针对长句在读唇上的优势构建的。该模式利用时空卷积、递归网络和连接主义时间分类损失,将一个可变长度的视频帧序列映射到文本。LipNet系统通过6个不同的电视节目、共超过10万个句子进行5000小时的训练。最终这个AI系统通过只看每个说话人的嘴唇,就能准确地破译整个短语。

  近年来,随着深度学习的发展和训练大数据的可用性,人工智能系统学习读唇取得了前所未有的进步,表现也有了很大的提高。读唇对于人类来说也是一项困难的工作,当人们看到说话人的嘴巴时,通常会被细微的、容易混淆的唇形变化所困惑。所以说,AI读唇可以用于改善助听器、公共空间中的默写、嘈杂环境中的语音识别、生物识别和无声电影处理。AI读唇不久后将可作为应用程序整合到手机中,这使得听力障碍患者无论走到哪里都能随身携带一只“耳朵”。这样的系统还可以帮助那些因为声带受损而不能说话的人“发出声音”。另外,LIBS团队表示在未来的工作中,他们期待着将同样的框架应用到其他模态中,比如语音和手语系统。

3上一篇  下一篇  
 
《重庆科技报》版权所有 未经书面授权 不得复制或建立镜像
地址:重庆市渝中区双钢路3号科协大厦 邮编:400013
技术支持:北京北大方正电子有限公司