专栏 | 深思考:实现人机多轮交互突破是攻克图灵测试的核心
(本文转载自机器之心专栏)
作者:杨志明、王泳、毛金涛本文作者是中科院 NLP 博士,深思考人工智能机器人科技 ideepwise 的首席架构师/CEO 杨志明博士,首席机器学习科学家王泳博士,NLP 算法科学家毛金涛博士。2017 年 9 月 16 日,深思考人工智能团队取得了 SMP2017-ECDT(人机对话技术评测)特定域任务型人机对话评测(特定垂直领域多轮人机交互)全国第一名。本文由深思考人工智能核心团队揭秘如何实现人机多轮交互技术的突破以及对应用的意义。
图灵测试(The Turing test)由艾伦·麦席森·图灵提出,指测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者提问,进行多次测试。一般提问者在 5 分钟提问后,如果不足 70% 的人判对(也就是超过 30% 的裁判误以为在和自己说话的是人而非计算机),那么这台机器就通过了测试。图灵测试的核心就是人机多轮交互。
图-1 图灵测试
早在人工智能开始时,人们就开始了这方面的探索。虽然不断有新的技术涌现,人机交互的智能化程度也越来越高。但现阶段的人机交互技术还没有达到一个真正人类智能的水平,所以广泛领域的人工交互还是很难达到实用的水平。而中文的人机交互,像其他自然语言处理技术一样,受中文的特性所限,相对英文的人机交互难度更大,技术上也稍微有所差距。所以,现阶段要使人机交互达到人们实用的基本满意程度,就需要有所限制。通常,在闲聊以及特定的任务型限定领域,人机交互会有比较满意的表现。在这些领域,由于人们的交互意图基本围绕在某个任务目的的范围内,所以对人类思维话术的处理是现阶段自然语言处理技术所能做到。
近期召开的第六届全国社会媒体处理大会(The Sixth China National Conference on Social Media Processing, SMP)针对中文人机对话技术进行了评测(The Evaluation of Chinese Human-Computer Dialogue Technology,SMP2017-ECDT),考评了国内学术界和企业界在该领域所能取得的最好成绩,国内学术机构与技术公司共 300 多家团队参与评测。本届中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,评测内容包含两类任务,任务一——用户意图领域分类(包括封闭式评测和开放式评测),任务二——特定域任务型人机对话在线评测。其中任务二就是针对酒店预订、火车票预订、机票预订这三个应用领域的多轮对话测试。酒店、火车票、机票预订这三个应用领域往往是在一问一答单轮的交互中无法完成的,就需要进行多轮的交互。而在多轮交互的时候,又可能出现领域的调转,一句话中包含多领域的转接或需求。为了实现多轮人机交互,深思考人工智能 ideepwise 团队研发了语料预处理、意图分类、上下文处理及决策、意图理解及处理等模块,综合运用了多项人工智能深度学习技术(如图-2)。
图-2 人机多轮交互系统总体框架
一、语料预处理
在中文的多轮人机交互系统中,首先需要对用户输入的话进行纠错,补全、指代消解、分词、词性标注、实体识别。由于用户的习惯、语言水平等各种原因,有时用户的输入会有错误的情况。而在集成了语音识别的人机交互系统中,还有语音识别错误、环境噪音、错误停顿等造成问题。在实际的应用中这种语音识别的错误有时是非常严重的,甚至会导致整个交互无法继续。同时,由于是多轮交互,人们会对上文已有的一些信息进行省略和指代。所以为了能更准确的理解用户的意图,需要对语音识别错误或用户的错误用词进行纠错,对省略和指代的信息根据上下文进行补全和指代消解的处理。然后进行分词、词性标注。最后还要对时间、地点以及一些领域的实体进行实体识别。
二、意图分类
在多领域的人机交互系统中,当用户说了一句话时,首先要知道这句话是哪个领域的问题,才能交给这个领域的业务处理模块进行处理。所以首先要对用户的问题或输入进行按业务领域进行分类。这个问题类似普通的分类问题,但又稍有不同。
如果特定业务领域的数据积累足够,通常基于深度学习 CNN 算法来进行意图分类可以取得不错的效果,但若很难得到大量的这种标注好的分类训练语料,在中文方面,这个问题更加突出,一向处理分类问题效果比较好的深度学习方法,就比较难以使用。这种情况若只依赖问题字符串来进行意图分类是肯定不行的,因为所能提供的信息太少,所以在这里就需要结合问题域扩充数据特征维度,采用层次集成算法进行意图分类。
三、上下文处理及决策
由于多轮交互时,有很多信息在交互的上文中已经出现,用户不会再在当前的问题中进行重复,所以需要一个上下文的记忆模块。在上下文的记忆方面,长短期记忆网络(LSTM NetWorks)要比标准递归神经网络(RNNs)出色许多,它解决了 RNNs 模型梯度弥散的问题。
哪句上文匹配哪句下文由一个决策器来做决策,决策器中采用了深度强化学习 Deep Reinforcement Learning 中的 Deep Q Learning 算法来训练一个最佳上下文匹配模型。以最终能够完成该特定领域任务为目标,如果最终能够完成该任务为正反馈,最终没有完成该任务为负反馈,不断用多轮对话语料去交互获得各种反馈。一次多轮对话可以被定义为一个马尔可夫决策过程 (MDPs), 反复在会话中间节点状态 S, 会话话术行为 A,回报 R, 状态 S ... 之间轮换直到一次多轮对话结束,最终获得最佳回报即能够正确完成任务的 Q network 模型,该模型来确定最佳匹配的上下文。
四、意图理解及处理
当上下文处理及决策将当前会话交给某个领域业务处理模块进行处理时,该模块就需要对这句话中用户的意图进行理解,然后进行处理。虽然在这些特定的任务型领域,用户的意图相对比较确定,但人们的语言却是无法限定的,所以即使同一个意图的表达,不同的人不同的场景不同的时间,所用的文字话术多少会有些不同。
建立一个用户意图话术的 FAQ。然后使用基于深度学习的句子相似度的算法来计算当前会话与 FAQ 中话术的相似程度。在计算句子相似度时,利用的词向量、同义词、关键词的扩展,进行语义的计算,利用词性、关键词等信息为不同的赋予不同的贡献权重。同时针对一些特殊的词性和领域词,进行了特殊的语义相似度的处理。当明白当前会话的用户意图后,还需要对会话中的一些信息进行抽取解析。这些信息包括常见的时间、地点,也包括一些领域需要的始发地、目的地、机场、航班号、酒店名、价格等等。
五、应用与意义
基于上述技术研发的深思考 ideepwise 机器人可以在特定领域场景下达到近似于人一样流畅的交流,如图-3 用户问到:「上海明天的天气怎么样?」机器人给出天气回复,用户再提出请求:「给我订一个那边的酒店」,机器人会引导用户询问用户对价格的要求,用户只需要回答价格的区间,机器人就会流畅的给出综合答案。
图-3
又例如图-4:交互流程中间被打断,机器人还能像人一样记得上一个流程,例如:可以在订票过程中,如果用户询问天气预报,则自动将用户意图分类为天气,然后继续订票流程。
图-4
人机多轮上下文理解与交互技术的突破的意义在于更进一步的提高智能客服、AI 医疗问诊,车载人机交互等人机交互的场景下的交互有效性、任务完成率和体验,使得人机交互可以更像两个人之间的对话,人与人之间是习惯于有上下文的,往往「基于上文,下文是说不全的」,比如传统的智能客服是:
user:「我家机器坏了!」
robot:抱歉由于无法知道机器的型号,暂时无法回复您,请转人工客服。
能够理解上下文的技术突破后,则对话更流畅了,机器人可以真的像人一样完成某一个特定任务,下面是另一番场景:
user:「我家机器坏了!」
robot:请问您家的机器具体是什么机器啊?
user:我家电饭锅坏了
robot:请问您家电饭锅是什么型号的啊?
user:P10
robot:P10 型号的电饭锅建议您去距离中关村最近的***售后维修点维修
人机对话是人与机器交互最自然的方式,实现像人与人之间自然流畅的对话是人工智能的最终目标之一。如果人机多轮对话可以在某些应用领域实现突破,那么人工智能技术在应用领域也就实现了一次飞跃,这远比 AlphaGo 战胜人类棋手的现实意义更为重大。
公司简介:
iDeepWise 深思考人工智能 ideepwise 是一家专注于「类脑人工智能与深度学习」核心科技的高科技公司。SMP2017-ECDT(人机对话技术评测)由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司承办,华为公司赞助。旨在通过评测来验证学术界和产业界在人机对话交互上最新的进展和成果。
另外 ideepwise 深思考人工智能在「ideepwise 宫颈癌阅片筛查机器人『大脑』这一产品也有了突破性的进展,在 Herlev 数据集上测试结果:细胞类别分类精度 99.3%(比美国国立卫生研究院 NIH 高 1%,2017.6)、 特异性高出 1%、敏感性高出 1.5%,是国内目前唯一能够识别腺细胞异常的宫颈癌筛查的 AI 产品,目前已在多家三甲医院和第三方检验机构落地使用。
附录:SMP2017-ECDT 任务二——特定域任务型人机对话在线评测结果