深思考杨志明:多模态深度语义理解开启人机交互新时代
弥补深度学习不足,杨志明认为类脑AI是“最佳人选”。
弥补深度学习不足,杨志明认为类脑AI是“最佳人选”。
随着云、物联网、互联网网络、光网、宽带、5G的发展,大数据燃料非常充足,未来的少人化工厂、虚拟社区、私人定制等服务都将是智能化场景的最终形态,这使得如何实现更自然的人机交互成为当下十分重要的课题。
在刚刚结束的“2018硬科技行业领袖峰会暨镁客网年会”活动上,深思考人工智能CEO兼AI算法科学家杨志明博士发表了主题为《多模态深度语义理解开启人机交互新时代》的演讲,他直言行业急需改进:目前的AI技术在产业化中已经有很多问题出现,比如深度学习非常依赖大数据,而人脑是依赖小数据的,看到一个新的人脸就可以很快的记住并认识他,但AI不行。那么,我们就得思考如何让AI模仿人脑举一反三。
演讲中,杨志明通过案例呈现做了深度的探讨。
以下为杨志明先生的演讲实录:
各位听众大家上午好,非常荣幸跟大家分享一下多模态深度语义理解和人机交互。
首先我介绍一下什么是类脑人工智能。现在AI概念比较普及,我们做AI的一线从业者发现了一些问题,目前的人工智能大多数突破的是深度学习的方法,其实到我们逐渐的产业化过程中却发生了一些问题。深度学习主要存在哪些问题?首先深度学习比传统学习要好很多,但深度学习也存在一些问题,一些我们产业化和研究中遇到的问题,比如深度学习非常依赖大数据。而人脑是可以依赖小数据的,就好像我们看到一个新的人脸的时候,很快可以认识他/她,即便是小数据也可以做到非常好的结果。另外深度学习功耗非常大,运算速度也非常慢。人脑功耗非常低,运行速度也非常快。我们人脑可以举一反三,但是深度学习、机器学习没法做到很好的推理,它必须依赖大量的数据学习数据的规律。
以上三点是类脑AI要去解决的问题,那么如何使得我们的人工智能不完全依赖大数据,小数据也可以运行,使得人工智能可以实现快速的迁移?现在所谓的人工智能都在聚焦某个场景,但其实怎么模拟的人脑举一反三,怎么在目前AI小的计算资源下快速和低功耗的运行?这是我们要致力解决的类脑AI技术。
目前,从取得的成果来看,我们已经在多模态深度语义理解这块做了突破。比如看一个电视剧,眼睛看画面、耳朵听声音、眼睛看字幕,对不同事物不同状态,人脑可以同时做理解。但AI还停留在识别与感知阶段,人脑更多是语义理解,而且是多模态理解,这是我们专注的人工智能技术领域。
其中,我们的多模态的深度语义理解,可以同时多模态的实现对文本与视觉图像的语义理解。举例来说,如果传统时代做AI识别,一个小狗在小树荫下面我们去识别的时候,发现识别分类两个目标,一个目标是小狗,另外一个目标是一棵树,基于视觉语义理解,一个小狗在树荫下乘凉,而我们人脑理解的是更加深度的理解文本背后的含义:一个小狗在树荫下乘凉,外面是炎炎夏日。这便是我们的多模态深度语义理解,我们把这个用在人机交互上产生了很多技术特点和变化。
拿自由切换场景来举例,人与人交流的时候是可以自由切换场景的,比如第一个场景买一张机票,对方问“你要去哪?”我可以答非所问,“你放一点音乐我来听一听。我先想一想,我想明天下午两点以后去。”但这句话其实是针对一个场景的上一个问题的答非所问,我们人类交互的时候就是这样,大量的时候是缺省,比如“日本国土面积是多少?”“中国呢?”所以在人机对话的时候也是大量存在缺省的,我们用多模态语义理解现在取得的突破,相比同行的友商我们突出的竞品优势就是:人机对话能够实现自由地切换对话场景,具备上下文流畅的多轮交互。
在医疗方面,我们切入的落地场景是智慧医疗的宫颈癌细胞学AI辅助筛查,这是一个刚需场景,宫颈癌是女性最高发的恶性肿瘤之一,每一位适龄女性都应该定期进行宫颈癌筛查,但与此同时,病理医师新生力量呈现“断崖式”短缺,国内医疗资源分布不平衡,相关医疗筛查产品准确率低等问题的出现,远远无法满足中国女性的医疗需求。我们通过“多模态深度语义理解”技术进行“排阴”,辅助病理医生阅片,病理医生只需要人机协同进行复核操作,从而提高宫颈癌筛查效率、降低病理医生筛查工作量及工作强度,快速降低误诊、漏诊。
为什么多模态深度语义理解有技术优势?举例来说,在宫颈细胞中有一种叫腺细胞,这类细胞病变比较罕见,我们北京市总共才收集到600例数据便做出了非常好的结果,要知道腺细胞本身识别的话没有问题,但他们会“抱团”出现问题,通过多模态深度语义理解技术,我们便可以发现它们的问题,并且我们的产品是国内唯一可以筛出腺细胞异常的产品。目前我们的iDeepWise.AI 4.0产品已经覆盖70%第三方检验机构市场,同时与30多家知名三甲医院建立合作。
此外,深思考人工智能技术落地应用场景在智能汽车领域,汽车人机交互和语义理解存在刚需场景。第一,实时性。不能完全云端运行的场景,比如信号不好时,云端反馈回来比较慢,上云反馈结果以后这个车可能开过去了,这类实时性要求比较高,我们通过端模式针对这个场景做实时运算。第二是车内个性化需求,包括针对用户的习惯和爱好做人机交互对话,根据不同场景、不同用户的习惯跟用户实现人机对话。
车机这块APP太多了,用语音识别产品还不够。语音识别能解决听见的问题,比如“我比较热”,语音识别是理解不出来的,但加上我们多模态语义对话的产品就可以,“主人你是要开空调还是开窗?”这样对话就可以延续下去。
深思考AI落地在智能汽车场景这块,针对于车内人机交互的场景,通过“多模态深度语义理解与人机交互”技术实现车内外场景的理解,从而更加主动、更加智能地发现、满足人们的需求,极大地提高车内人机交互体验。通俗来讲便是车外模组对当前车辆所处的场景进行理解,提高驾驶的安全和舒适性。例如我们通过8度摄像头做车外视觉模组切换,我们现在车外视觉模组侦测到室外场景:夕阳西下,风景无限好。
同时车内外模组的互相协作,车内模组通过多轮跨域上下文理解、场景理解与提醒等多模态深度语义理解与人机交互技术将交互模式调整为适应当前场景的状态,为用户提供最大化的“懂你”的交互体验升级。
目前我们已与国内外多家汽车制造厂商和主机厂商进行合作。
我们完全坚信深思考人工智能的多模态深度语义理解技术与产品,深度结合场景需求,一定能实现人工智能的大规模应用落地,未来实现处处可理解,万物可对话!谢谢大家。