在人机多轮对话上,完胜Siri,Alexa,Bixby的AI系统达到了什么水平?
概要:ideepwise深思考人工智能使用基于深度学习算法的意图分类、词向量相似度、上下文指代消解、特定场景下纠错、信息抽取、sequence2sequence等技术,结合特定垂直领域的业务特点,创新的完成了人机多轮上下文交互。
由中国中文信息学会社会媒体处理专委会主办,中国科学院计算技术研究所承办的“第六届全国社会媒体处理大会(SMP 2017)”于2017年9月14—17日在北京召开。在SMP 2017会议上,专委会专门举办了中文人机对话技术评测(ECDT)。近年来,人机对话交互技术作为人工智能的热点领域,受到了学术界和产业界的广泛关注。在学术上,人机对话是人机交互最自然的方式之一,其对语音识别与合成、自然语言理解、对话管理以及自然语言生成等研究的进展有着发展影响及推动作用;
在产业上,众多业界公司相继推出了人机对话技术相关产品,如个人事务助理、手机助理、虚拟情感陪护机器人、娱乐型聊天机器人、智能音箱等等,并将人机对话交互技术作为其公司的重点研发方向。
本届中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司承办,讯飞公司提供数据,华为公司提供奖金。旨在通过评测来验证学术界和产业界在人机对话交互上最新的进展和成果。
本次SMP2017-ECDT(人机对话技术评测),值得重点关注的是——特定域任务型人机多轮对话,主要评测特定领域的人机多轮上下文交互能力。具体特定域任务是指:面向三个人们日常生活常见的特定领域:酒店、火车票、机票。人们在这三个领域的主要需求意图是相关信息的查询和订购。而为了完成此意图,往往是在一问一答单轮的交互中无法完成的,就需要进行多轮的交互。而在多轮交互的时候,又可能出现领域的调转,一句话中包含多领域的转接或需求。最终ideepwise深思考人工智能公司以远高于其他队伍的任务完成率获得了第一名。
图-1 大赛颁奖典礼(右二:杨志明博士)
评测结果如下:
主要参赛成员介绍:
杨志明,中科院NLP与机器学习方向博士,NLP产业化产品化领域耕耘十年以上。
王泳,中科院自动化所机器学习方向博士、中科院博士后。
毛金涛,北京理工大学NLP方向博士。
杨志明博士在评测技术报告中分享,人机多轮交互的难点在于每轮对话用户的意图像树一样随时分叉,存在多种可能性,一句话中又可能包含多个意图,AI对用户说话上下文的理解和应答非常困难。ideepwise深思考人工智能使用基于深度学习算法的意图分类、词向量相似度、上下文指代消解、特定场景下纠错、信息抽取、sequence2sequence等技术,结合特定垂直领域的业务特点,创新的完成了人机多轮上下文交互,使得在多轮人机交互中任务完成率为0.3175,高于第二名的0.1905,远高于第四名的0.1111。
目前业界在多轮会话方面解决的不尽如人意,例如据业内评测siri、亚马逊Alexa、三星Bixby在(1)“尼泊尔的首都是哪里?”(2)“现在那里几点了?”(3)“那里有多少人口?” 在这三轮问题面前均败阵下来。
深思考二代ideepwise机器人可以近似于人一样流畅的交流:
如图-4用户问到:“上海明天的天气怎么样?”机器人给出天气回复,用户再提出请求:“给我订一个那边的酒店”,机器人会引导用户询问用户对价格的要求,用户只需要回答价格的区间,机器人就会流畅的给出综合答案。
如图-5:交互流程中间被打断,机器人还能像人一样记得上一个流程,例如:可以在订票过程中,如果用户询问天气预报,则自动将用户意图分类为天气,然后继续订票流程。
图-4
人机多轮上下文理解与交互技术的突破的意义在于更进一步的提高智能客服、AI医疗问诊,车载人机交互等人机交互的场景下的交互有效性和体验,人机交互可以更像两个人之间的对话,人与人之间是习惯于有上下文的,往往“基于上文,下文是说不全的”,比如传统的智能客服是:
user:“我家机器坏了!”
robot:抱歉由于无法知道机器的型号,暂时无法回复您,请转人工客服。
能够理解上下文的技术突破后,则对话更流畅了,机器人可以真的像人一样完成某一个特定任务,下面是另一番场景:
user:“我家机器坏了!”
robot:请问您家的机器具体是什么机器啊?
user:我家电饭锅坏了
robot:请问您家电饭锅是什么型号的啊?
user:P10
robot:P10型号的电饭锅建议您去距离中关村最近的***售后维修点维修。
最后,杨志明博士表示深思考人工智能会继续深度垂直医疗健康、出行等业务领域,积累垂直领域数据和语料,打磨产品体验,不断精研人机多轮上下文交互算法,继续在人工智能人机多轮上下交互领域保持领先优势。
后记:
记者了解到ideepwise深思考人工智能在ideepwise宫颈癌阅片筛查机器人‘大脑’这一产品也有了突破性的进展。在Herlev数据集上测试结果:细胞类别分类精度99.3%(比美国国立卫生研究院NIH 高1%,2017.6)、特异性高出1%、敏感性高出1.5%,是国内目前唯一能够识别腺细胞异常的宫颈癌筛查的AI产品,对此深思考人工智能ideepwise申请了多项发明专利。整个阅片过程仅需100秒比人工阅片快5分08秒,在宫颈癌筛查中大大节省了医生的人力,提高了效率和准确率,目前已在多家三甲医院和第三方检验机构落地使用。据悉深思考人工智能已完成两轮千万级融资,正在开启下一轮融资中。