有40%的语言面临消亡的危险,其中大多数是土著语言。非洲大陆的1000种土著语言都需要紧急援助以免灭绝。近日,在一系列AI技术的加持下,谷歌翻译的水平有了重大飞跃,可支持108种语言翻译,尤其是缺乏数据的语言,如约鲁巴语、马拉雅拉姆语,平均每天翻译1500亿个单词。
混合模型和数据挖掘器
谷歌表示,其翻译突破并不是由单一技术推动的,而是针对低资源语言、高资源语言、总体质量、推理速度等一系列AI技术组合的突破。在这系列技术突破中,谷歌首先提到了混合模型和数据挖掘器。
混合模型指的是由Transformer编码器和递归神经网络解码器构成的模型。在机器翻译中,编码器通常将单词和短语编码为内部表征,解码器将其生成为所需要的语言文本。递归神经网络解码器在推理时间上比Transformer中的解码器要“快得多”。
谷歌翻译团队在将递归神经网络解码器与Transformer编码器耦合之前,对递归神经网络解码器进行了优化,以创建低延迟、质量及稳定性均比此前所使用的递归神经网络机器翻译模型更胜一筹的混合模型。
除了新颖的混合模型体系结构之外,谷歌还升级了爬虫工具,爬虫工具可以从数以百万计的示例翻译中收集编译训练数据。升级后,谷歌嵌入了14种大语言对,而不是单纯基于字典数据。这使得该数据挖掘器提取到的句子数量平均增加了29%。
“嘈杂”的数据和迁移学习
谷歌翻译另一个AI技术突破是更好地处理训练数据中的“噪声”。“噪声”即嘈杂的数据,因含有大量无法正确理解或解释的信息数据,从而会损害语料资源丰富的语言翻译。因此谷歌翻译团队部署了一个系统,该系统使用经过训练的模型为翻译示例分配分数,进而筛选出“纯净”的数据。
对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。
此外,谷歌翻译团队还建了一个M4模型。M4模型由团队在2019年提出,该模型对100多种语言的250亿对句子进行训练后,提高了30多种低资源语言的翻译质量。这一模型也证明了在机器翻译过程中可以使用迁移学习技术。这也意味着收集包括法语、德语和西班牙语,这些有数十亿个并行示例的高资源语言进行训练后,可以应用于翻译诸如约鲁巴语、信德语和夏威夷语,这些仅有数万个示例的低资源语言。
增加5种土著语言翻译
“我国现有语言130多种,至少一半语言的使用者不足万人,有25种使用者在千人以下,有11种不到百人。”语保工程首席专家、北京语言大学教授曹志耘介绍。
在2019年5月到2020年5月之间,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了5分以上,在50种语料资源最少的语言中平均提高了7分以上。
自2010年以来,翻译质量每年都在提高,但是机器翻译绝不是翻译问题的“终结者”。谷歌承认,即使是增强后的模型也容易出错,包括将一种语言的不同方言混合在一起,产生过多的直译,以及在特定主题、非正式用语或口语上的表现不佳。
谷歌尝试用不同的方法来解决上述的问题,曾发布一项计划旨在招募志愿者,通过检查翻译单词和短语是否正确来帮助提高低资源语言的翻译性能。今年2月份,谷歌翻译与新兴的AI技术相结合后完成了技术升级,他们又增加了卢旺达语、奥里亚语、鞑靼语、土库曼语、维吾尔语等大概仅有7500万人使用的五种语言翻译,不仅让这些语言的使用者受益,也对全球的文化多样性有着重要的贡献。