谷歌推出Google Duplex实现对话AI·重庆科技报数字报
谷歌推出Google Duplex实现对话AI无人驾驶巴士在上海交大试运行台湾教授研发“浓缩芯片” 检测癌症只需半小时
第07版:科技创新·项目
上一版 下一版  
谷歌推出Google Duplex实现对话AI
无人驾驶巴士在上海交大试运行
台湾教授研发“浓缩芯片” 检测癌症只需半小时
     
 
重庆日报 | 重庆日报农村版 | 重庆科技报
重庆日报报业集团主办 
3上一篇  下一篇4  
2018 年 05 月 15 日 星期 放大 缩小 默认  
理解 交互 时机 交流
谷歌推出Google Duplex实现对话AI

记者 罗涛

  近日,谷歌宣布推出Google Duplex,一个能在电话中用自然语言完成“现实世界”任务的对话AI。它目前已经能完成一些特定任务,如安排某些类型的预约。这类工作要求系统能像人与人正常沟通一样,而无须强制对方适应机器。

  AI理解自然对话的难点

  人类与计算机互动的一个长期目标是使人们能与计算机自然对话,就像普通人之间的对话一样。近年来,特别是随着深度神经网络的广泛应用,我们目睹了计算机在理解、生成自然语言上的“革命性”能力提升。但尽管如此,即便是当今最先进的AI系统,它还是不能很好地理解自然语言。举个例子,如今自动电话客服系统所使用的技术还停留在努力识别简单的单词和命令上,它们不参与对话流程,如果听不懂客户说话内容,它们会强制要求对方调整表述,而不是进行自我调整。

  AI在自然对话方面有几个难点:一是自然语言难以理解,二是难以模仿自然行为,三是用户期待更快的回应,四是用合适的语调生成自然的声音很困难。

  当人们彼此交谈时,他们说出的话比人和计算机的对话要复杂得多。他们会经常在话说到一半的时候纠正表述,而且往往表达得啰嗦、语法不严谨、严重依赖上下文。他们还喜欢用宽泛的表述,有时在一个句子里就能连用一大串。

  比起机器,人类在用自然语言对话时语速非常快,再加上口齿不清、错词率更高,因此常规的语音识别也会识别困难。在电话通话中,由于背景噪声大,音质不佳,这样的问题就更严重了。

  而在较长的谈话中,相同的句子可以根据上下文具有非常不同的含义。如果AI要理解这一点,它必须上溯几个句子找根据,但这一过程会因为在电话通话中的高频率对话而变得更加复杂。

  AI对话表现自然

  Google Duplex在对话上的自然表现主要归功于这4方面的进步:理解、交互、时机和交流。

  它的核心是一个专用于解决自然对话问题的递归神经网络(RNN),在TensorFlow Extended (TFX)平台上完成构建,使用的训练数据来自匿名电话会话数据语料库。该网络有多个输入,包括原音频特征、把原音频输入Google自动语音识别(ASR)技术后的输出、上下文、对话的参数(例如预约的所需服务或当前时间)等,研究人员为每种任务分别训练了一些模型,但语料库是跨任务共享的。最后,他们又用TFX中的超参数优化进一步改进了模型。

  Google Duplex组合使用文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)控制语调。

  由于在对话中加入了“嗯”“呃”等字,系统的回应听起来更自然。但这其实是TTS连接两个音调不同的声音或正在等待合成时使用的小障眼法,是一种自然的表示问题正在受理中的状态(人们也经常这么做)。经过用户研究,研究人员发现这种反应能在不利的对话情景下给对方带来熟悉、自然的感觉。

  此外,Google Duplex在回应速度方面也比较符合用户期望。当人们说完一件简单的事后,比如“hello”他们希望得到及时的回复,对回复延迟也比较敏感。如果系统检测到这种情况,它会马上切换成更快、精度更低的模型来工作。在极端情况下,Google Duplex甚至都不会调用RNN,而直接使用最快的近似值(通常会带各种表示犹豫的词汇,人类面对这种事情也会有类似的反应)。这种做法使系统的响应延迟能小于100毫秒。

  Google Duplex系统能够应对复杂对话,并且能完全自主地完成绝大部分任务,无须人工干预。该系统具有自我监控功能,可以识别无法自动完成的任务(例如安排异常复杂的预约),面对这种情况时,它会主动向施令者发出信号。

  为了在新领域训练系统,研究人员使用的是实时监督训练。和其他训练任务一样,在这些实验中,Google Duplex也会有一个充当“教师”的经验丰富的模型为充当“学生”的模型提供指导,确保后者执行任务的水平最终能和自己一致。通过监督“学生”在新场景通话中的表现,“教师”能根据需要实时影响“学生”的行为,直到它的行为满足系统预期。

3上一篇  下一篇  
 
《重庆科技报》版权所有 未经书面授权 不得复制或建立镜像
地址:重庆市渝中区双钢路3号科协大厦 邮编:400013
技术支持:北京北大方正电子有限公司