凤凰网汽车

凤凰网汽车>全媒体>正文

为什么我们不能跟车机好好聊天？

2018年12月20日 21:45:27

分享到：

来源：雅斯顿

原标题:为什么我们不能跟车机好好聊天？

雅斯顿原创文章 | 麦琪

电影《Her》里面的AI角色萨曼莎既理想又虚幻，这种完全接近人类自然沟通及思考的模式，正是人工智能的研究方向。

近日，福布斯公布了未来10年影响世界发展的多项技术，包括电池快充、5G网络、太阳能电池等，其中就提到了自然语言处理（Natural Language Processing，简称NLP）。当前无论是苹果Siri、谷歌Assistant，还是应用在汽车智能系统里的各种语音助手，都在朝着自然语言的方向努力。

汽车厂商普遍的做法是与科技公司合作，比如中国一些自主品牌选择与阿里、百度、思必驰等公司共同开发语音识别功能。虽然多年来用户感知的车载系统语音识别功能有了很大进步，但要实现自然语言交互还有很长一段距离。

1语音识别只是初级技能

要想实现电影《Her》里面萨曼莎的交流，简单来说只需要完成“语音识别、语义分析、信息搜索、语音合成”这四个环节，从目前大部分智能硬件的语音系统上，其实也能看到这四个操作环节的顺利执行。但为什么包括Siri在内的几乎所有语音助手，都难以实现真实语境的交流？

人类拥有语言交流的能力，这本身就是高度智能的体现。而由于人类语言拥有极为复杂的规律、组合与使用语境，因此人工智能要实现自然语言处理，需要依靠极为庞大的信息库和大量的信息运算。

当然，这些都不是最具挑战性的部分。以中国为例，在大量的方言体系之外，还有人们生活流动性带来的各种语言夹杂出现，而在发音差异之上，还有不同方言在语言表述规律上的差异。这无疑为自然语音处理带来成倍数的难度提升。另一个不可被忽视的是环境噪音对语音识别的干预。

目前在中国语音识别上做得比较好的是科大讯飞，截至今年可以实现全国23种方言的识别和翻译。方言识别的难点除了学习模型的建立，还包括对音素、声学相似性等方面的研究。许多地区方言存在发音相似、语义差别巨大的情况，这需要建模前对方言文化和语义进行广泛而深入的研究。

放到全球范围内，6000-10000种语言细化，使得人工智能中自然语言处理的实现极为困难，目前针对全球市场开发的Siri也只能实现数十种语言识别。如果放到单款产品生产规模更少、市场竞争更为激烈的汽车领域，针对全球开发的车载系统语音识别功能，就很难完全满足单个市场的人群需求。

2深度学习仍是一道难题

语音交互功能在最近几年实现了大范围推广，无论是移动设备还是汽车系统，这项功能的加入都让整个人机交互过程效率更高、体验更好。实际上，语音交互能够达到当前水平，也是科学界研究了60多年的成果。

人类的自然对话具有非常多的规律，学龄儿童的对话形式与成年人之间的也不尽相同，在信息交流的同时也具备情感分析。但对于人工智能来说，这样的处理过于高阶，目前大部分语音交互的模式都是首先要将自然语言处理的步骤简化，我们可以将其理解为一问一答。

系统通过识别语句中潜藏的问题，基于关键词进行相关信息搜索与筛选分析，最后输出答案。这种逻辑基本等同于当前我们从手机、车机上体验的交互模式。一直以来，自然语言处理都在采用深度学习这种方法，原理是让机器模拟人类的思维模式，这种人工神经网络由层叠信息层组成，类似人脑的机理，而在其中加入人类的知识体系，可以让机器不断学习、不断更新信息。

深度学习的办法看似理想，因为人类本身的自然语言交流也是需要不断学习。但对于人工智能来说，这种深度学习的局限性在于，它需要依赖大量数据，而这些数据本身并不统一、缺乏标准。