如何和贤二机器僧聊天

本文作者将从四类具体应用的实现上，看看AI技术给我们生活带来哪些便利，以及存在哪些局限？enjoy~

如果把AI技术分为「前端的交互技术」和「后端的人工智能技术」。前端的交互技术包括语音识别、图像识别和自然语言处理；后端的人工智能技术就是人工智能的核心算法，包括深度学习算法、记忆预测模型算法等。

这些前后端的人工智能技术在应用又可分为四类：语音识别、图像识别、自然语言处理和用户画像。那么在这四类具体应用的实现上AI技术给我们生活带来哪些便利，同时存在哪些局限？下面一一来解构：

一、语音识别

语音识别

语音识别有两个技术方向，一个是语音的识别，另一个是语音的合成。

语音识别是指我们自然发出的声音需要机器转换成语言符号，通过识别和理解过程把语音信号转变为响应的文本或命令，然后再与我们交互。语音识别技术可以应用在电话销售上，例如：公司新人特别多，没有经验，拿到单子的可能性很低。怎么才能让新人也能有很优秀的销售能力呢？过去的做法是，把经验总结成册子，让新人去背，很容易就忘了。但如果有了高精度的语音识别能力，就能识别出客户在问什么，然后在屏幕上告诉新人，该怎么回答这个问题。

语音识别的第二个方向是语音的合成，是指机器把文字转换成语音，并且能够根据个人需求定制语音，然后念出来。以前的声音是那种匀速的、没有语调起伏的机器声音，现在能用比较自然的人声。语音合成能模拟任何一个你喜欢的人的说话方式，可以做到每个人听的东西都不一样。我们驾车经常使用的百度导航里李彦宏的声音就是语音合成的结果。

尽管深度学习被引入语音识别后，识别率迅速提升到95%，但要将ASR（自动语音识别）从仅在大部分时间适用于一部分人发展到在任何时候适用于任何人，仍然是不现实的。一个无法突破的问题就是语义错误。例如：生活在南京的人都知道有个地方叫卡子门（kazimen），但是百度导航在理解卡子门的时候，会分词为：“卡子-门”，结果卡子门（kazimen）就被读成了卡子门（qiazimen）。

二、图像识别

计算机视觉

图像识别就是我们常说的计算机视觉（CV）。常用在：印刷文字识别、人脸识别、五官定位、人脸对比与验证、人脸检索、图片标签、身份证光学字符识别（OCR）、名片OCR识别等领域。

人类认识了解世界的信息中大部分来自视觉，同样，计算机视觉也成了机器认知世界的基础，其终极目的就是让计算机能像人一样“看懂世界”。目前计算机视觉在人脸识别、图像识别、增强现实等方面有很好的应用，但也存在一定的挑战。我们就拿谷歌的无人驾驶来说，通过机器视觉识别的技术路径在现阶段，仍有完全无法逾越的技术难题。

不谈算法，图像的摄取精度就是难关，即使最顶级的摄像设备都无法达到人眼的细节获取能力，看看最顶级的哈苏相机配合最顶级镜头，在夜晚街头短曝光时间下拍的照片，对比人眼看到的图像就能看到差异，这还不谈经济上可行的低成本摄像设备，视觉识别自动驾驶这个系统，眼睛就是近视眼。

而且如果下雨，灰尘等对分辨的影响都是很难解决的bug。如果配合雷达的话又有逻辑判断优先的问题，信摄像头，还是信雷达？会不会误报？而作为激光雷达，如果单纯的车身自己也有同样的逻辑判断的问题，什么样的东西是有威胁的，什么是无威胁的。什么是潜在的威胁，这都不是计算机视觉这种单一智能所能解决的。因为预测未来的感知能力，是人与机器最大的区别。

三、自然语言处理（NLP）

贤二机器僧

自然语言是人类智慧的结晶。自然语言处理（NLP）是人工智能中最为困难的问题之一。由于理解自然语言，需要关于外在世界的广泛知识以及运用操作这些知识的能力，自然语言认知，同时也被视为一个人工智能完备（AI-complete）的问题。

举个例子，我们以前用键盘，鼠标，触摸屏去和设备互动。但是现在你操作设备，只需冲着智能音箱说：请给我的手机充值100元即可。虽然这种功能在阿里的天猫精灵上已经实现了，但实现的前提是天猫精灵APP上已经录有你的声纹，并且你的手机号码，及支付密码已经预先在APP端设置好，否则机器没有办法理解我是谁、给谁的手机充值100元话费。

其次，自然语言处理背后所依赖的是传统的问答系统技术，即Question Answering（QA）。QA技术是自然语言处理中非常重要的一个研究方向，原理是：对于输入的问题首先做句法分析，从而理解问题或者指令的结构和意图。比如如果用户问的问题是某人出生在哪儿，那么机器需要先对这句话进行解析，进而了解所要回答的应当是一个地点，并且这个地点应当满足某人出生与此的条件。

当我们能够准确地了解到用户提问的意图并能根据机器可以理解的方式重新组织之后，就需要寻找答案。为了实现这一目的，QA系统的背后都存在一个庞大的数据库（也就是知识库），这个数据库中存储着所有的指令对应的行为或者问题对应的答案，当系统在数据库中搜索到了自己要做什么或者回答什么的时候，就可以将答案反馈给用户，或者直接实现用户的指令。当然，如果数据库的规模实在有限，有一个兜底的方法就是基于信息检索来返回答案，即将用户的输入提取出关键词然后求助于搜索引擎返回相关的内容再返回给用户，由于互联网无所不包，因此结果一般也尚可接受。

自然语言处理这块相关落地的产品就很多啦。典型的代表就是聊天机器人，其中一类是以Siri、Amazon Echo、微软小娜、阿里天猫精灵、小米小AI音箱等为代表，偏向于工具性的服务型机器人。另一类则是以微软小冰为代表的娱乐型机器人。第一类聊天机器人，以完成任务或回答事实性问题为导向，譬如你问天猫精灵“今天的天气如何？”，或者给“小爱同学”下达“关闭卧室台灯”等指令。第二类则以闲聊为导向，并不需要给出某一个事实性问题的解答，只要交谈自如、博君一笑即可。比如：北京龙泉寺的贤二机器僧。

四、用户画像

碟中谍6：全面瓦解

用户画像是根据用户社会属性、生活习惯和消费行为等信息/数据而抽象出的一个标签化的用户模型。构建用户画像的核心工作即是给用户贴“标签”——用数据来描述人的行为和特征，而标签是通过对用户信息分析而来的高度简练的特征标识。

用户画像在商业领域应用的非常广泛。拿百度举例。百度现在识别了将近10亿用户，用了几千万个细分标签给用户分类，比如性别、年龄、地理位置，还有这个人在金融领域的情况，在旅游方面有什么爱好等等。这些东西合在一起，就组成了用户画像。百度就知道你是什么样的人，喜欢什么样的东西。比如，今年暑期档将要上映的电影《碟中谍6：全面瓦解》，在宣传的时候把人群分成了三类，一类是不管怎样都要看的，一类是不管怎么都不会看的，第三类是可能会进电影院的。宣传方就会使用百度大脑的用户画像功能，识别出第三类人群，对这类观众进行定向宣传。

人工智能在用户画像里最重要的作用就是找到相关性，给用户打标签。用户标签是表达人的基本属性、行为倾向、兴趣偏好等某一个维度的数据标识，它是一种相关性很强的关键字，可以简洁的描述和分类人群。比如好人和坏人、90后80后，星座、白领等。具体流程一般是从纷乱复杂、琐碎的用户行为流（日志）中挖掘用户在一段时间内比较稳定的特征，即给用户打上标签。

举例来说，如果你经常购买一些纸尿裤，那么电商网站即可根据母婴购买的情况替你打上标签“有孩子”，甚至还可以判断出你孩子大概的年龄，贴上“有1-4岁的孩子”这样更为具体的标签，而这些所有给你贴的标签组，就成了你的用户画像，也可以说用户画像就是判断一个人是什么样的人。但是今天的人工智能虽然能够找到相关性，但是却无法找到内在的逻辑，因此容易把前提和结论搞反了。比如根据大数据的统计，喝咖啡的人比不喝咖啡的人长寿。但大数据没告诉大家喝咖啡是不是原因，或许是生活水平高的人才有钱、有时间喝咖啡。所以真实的情况是长寿的人喝咖啡。

五、人工智能算法

深度学习算法

说完了语音识别、图像识别和自然语言处理这些涉及交互的前端人工智能技术，我们再来说说后端人工智能技术。后端的人工智能技术指的就是人工智能的核心算法，包括深度学习算法、记忆预测模型算法等。

首先，我们来说说深度学习算法。我们知道2016年是人工智能爆发的一年，先有AlphaGo战胜李世石，到了年底又有Master连胜60场，横扫中日韩围棋高手，一时间舆论为之震惊。这个Alpha Go背后的DeepMind团队，用的就是深度增强式学习，这是深层神经网络用于决策领域的成果。深度学习是机器学习的一个新领域，普遍认为深度学习的开创者是加拿大多伦多大学一位叫Geoffrey Hinton的教授，他是一位“神经科学家+计算机科学家”，他认为大脑是用全息的方式存储外界世界信息的，并且从上世纪80年代就开始研究用计算机系统架构来模拟人类大脑，就是我们今天说的深度学习的原型。

今天我们可以这样理解深度学习算法，深度学习就是运用神经网络一层又一层的计算来找到最优的参数，再结合参数去做出未来的决定。出发点在于建立、模拟人脑进行分析学习的神经网络。深度学习的整个学习过程中，几乎可以做到直接把海量数据投放到算法中，让数据自己说话，系统会自动从数据中学习。从输入到输出是一个完全自动的过程。深度学习算法现在被设计成实现设计者既定目标的工具。比如，AlphaGo的目标就是去赢得围棋比赛，而不是去开车或干其他事情。AlphaGo不能自己设定自己的目标，如果要完成另一个目标，就需要设计另一种机器。当然人工智能有N多条路，深度学习算法是目前人工智能算法里表现最好的。但深度学习并不是一上来就好的，让深度学习崛起还有两个华人：

一个就是斯坦福的教授，也是后来谷歌大脑的创始人吴恩达教授，因为他发现深度学习需要有更强的计算能力，所以他找到了英伟达的GPU（Graphics Processing Unit，图形处理单元），使得计算能力提升了上百倍。
另外一个人也是斯坦福的教授李飞飞，她建立了一个图像识别资料库。而且这个库里面的所有的图像都是标注过的，也就是说，如果图里有山就会标注出山，如果有树就标注出树。这样的话，你可以用这个图形库来训练人工智能系统，看它能不能识别出来这个图形库上面所标注的这些元素。经过这个图像库的训练，就可以训练出视觉能力超过人的人工智能系统。

但是千万不要以为深度学习达到今天的水平就是无敌了，甚至可以超越人类了。深度学习发展起来的人工智能系统存在一个明显的缺陷，就是他的过程无法描述，机器不能用人的语言说出来它是怎么做到的。例如，Alpha Go打败了李世石，你要问AlphaGo是为什么走这步棋，它是答不上来的。也就是说，我们没办法知道机器做事情的动机和理由。

要想更好的认识到人工智能算法的局限性，需要引入一个概念，就是认知复杂度。什么是认知复杂度呢？就是指你建构“客观”世界的能力。认知复杂度高的人，善于同时用互补，或者互不相容的概念来理解客观世界，因为真实世界本身就不是非黑即白的。那么对于机器来说，“认知计算”和“人工智能”有啥关系呢？人工智能的未来一般被分为三个发展方向：人搞定机器、机器搞定人和“人机共生”。而以“人机共生”为目标的人工智能，就是认知计算。IBM在认知计算领域获得了大量经验，并且总结了认知计算的三个能力，分别是交流、决策，和发现。

（1）交流

第一个能力是交流，认知计算可以处理非结构性的问题。很多用Siri的人，只会把这当成娱乐功能，因为它不能保证交流内容的准确性，有时Siri根本接不上你的话，因为你的话对它来说太复杂了。这个只能算作人工智能比较初始的状态。

而认知计算可以完全模仿人类的认知，你可以把它当做一个孩子。就好像孩子周围有一群逗他玩的大人，有人告诉孩子1+1=2，也有人说1+1=3。但是随着孩子的成长，他自己会明白1+1=2才是对的。这就是非结构性问题。早期的人工智能只能学会别人教给他的知识，但是认知计算可以处理模糊的，甚至是自相矛盾的信息。

（2）决策

第二个能力是决策，我们都知道人工智能可以分析复杂的逻辑，然后做出决策。认知计算可以更进一步，根据新的信息来调整自己的决策。更厉害的是，认知系统所做的决策是没有偏见的，而“毫无偏见的决策”对人类来说几乎是一件不可能的事。比如说治疗癌症，这是典型的医疗决策场景。

癌症之所以难治，一方面由于这种疾病太过复杂，另一方面，医生如果不能及时发现患者的癌症信号，可能会延误患者的治疗，或者导致诊断错误。而认知计算可以综合分析复杂的医疗数据，还可以在医生语言的上下文中解析含义，最后提出它的建议。

这就大大减少了医生查病历的时间，让医生能将更多的时间用在患者身上。2016年8月，《东京新闻》报道说，IBM研发的认知计算机器人“沃森”，就学习了海量的医学论文，只用了10分钟，就为一名患者诊断出了很难判断的白血病类型，还向东京大学医科学研究所提出了适当的治疗方案。

（3）发现

第三个能力是发现，认知计算能发现新事物和新连接，填补人类思维的空白。比如在竞争激烈的餐饮业，怎样才能做出令顾客满意的新菜品呢？

认知系统可以整合区域知识、文化知识，还有各种食物搭配理论，帮助用户发现想象不到的美食搭配。比如突然有一天，它会告诉你：用卤煮的配方做个披萨，可能很合你的胃口。你照着一做，发现还不错！实际上，从2015年开始，IBM开发的“沃森大厨”，就已经学习了35000多种经典食谱，然后通过分析海量的食材搭配，结合化学、营养学等方面数据，为厨师和美食家带来了超出人类想象的新型食谱。

认知计算可以帮助我们更好的交流、决策和发现。但是人工智能依然有很多做不到的。例如：抽象能力，自我意识，审美，情感等。

六、小结

讲了这么多的人工智能的能与不能。其实AI并不是魔法，它只是数学、统计学、以及使用大数据来进行模式识别，是对环境和物体的识别和相关性分析的智能。采用算法的方式来实现人的逻辑和数学思维，形成计算机思维，从而衍生出特殊算法系统，机器智慧。

其实一切人工智能问题其实就是硬件问题软件化，用自动化的知识解决一切问题。比如说摄影，过去我们用各种光学镜头来让照片更美，现在用“算法”我们就能搞定。再比如做实验，过去我们要摆弄各种瓶瓶罐罐，而现在我们则可以在计算机里模拟核爆炸。

本文由 @黄成甲原创发布于人人都是产品经理。未经许可，禁止转载。

题图来自 Pexels，基于 CC0 协议