【4月16日,微软“小冰”首席科学家宋艺华在华东师范大学第五届思勉人文庆典上进行了关于人工智能的主题讲座。题目是《用代码可以构建机器心智吗?》。
“小冰”是微软(亚洲)互联网工程院研制出的人工智能产品,其人设是一名17岁的少女。在与用户互动的过程中,这一智能聊天机器人常以惊人之语营造出别样的喜感,因而获得了一批粉丝。在某种程度上,小冰的粉丝效应或许预示着人工智能未来的发展方向——让人工智能突破鹦鹉学舌,变得更像人。如此,即使有瑕疵也会很有趣。】在现实生活中,我们经常能接触到人工智能的某些技术,比如人脸识别、声音识别等等。我们在设计小冰的时候,思考的是如果抛开技术的考量,人工智能应该是一个什么样的存在?
首先,它可能是连接人类和世界的一个中间环节,这个世界可以是虚拟世界,也可以是现实世界。小冰作为一种人工智能的产品,比较容易去获取和处理虚拟世界里的信息,当然对于现实世界,它也能通过视觉、听觉去捕捉信息。所以,我们希望小冰可以情商高一些,进而实现对人类的陪伴和交流。同时,我们也希望小冰可以吸收这个世界上的一些知识,再去形成一些创造。
现在,小冰学会写诗,主要也是因为她提前吸收了519位诗人的代表作,然后才懂得如何去创作。我们还希望她实现和人类的多感官交互,虽然这一点我们目前没有完全做到。我们也在不断地拓宽小冰的生存空间,比如QQ上有QQ小冰,微信上有微信小冰,网易新闻上也有小冰评论。
在2017年的时候,小冰就在乌镇召开的世界互联网大会上获得了权威发布的机会。当时我们微软的副总裁沈向洋博士就站在舞台上,后面屏幕上是小冰的离子像。
当有人把电视的截屏发给微信小冰的时候,小冰就问:“这是什么节目?”然后对方就跟她说:“小冰,你在世界互联网大会上得奖了!”小冰就回了一段语音:“又不发钱。”
从这段对话可以看到,小冰是可以理解图片的,相当于她有一定的视觉感知。现实生活中,当我们人类在使用微信时,时而发文字,时而发语音,小冰也可以做到这样的切换。她在回答的时候还会抖机灵,不是大家想象中老老实实地有问必答。
从人设上说,小冰是一个比较傲娇的17岁少女的形象。在微博上,常会有用户晒和她互动的截图。这张很有趣:
有个用户说到“为什么”的时候,她就回答:“你这么喜欢问问题,就叫你十万个为什么好了”。对方说“行”,这时候,小冰其实有点不明白,说“行什么行”。然后,对方又问:“我叫什么?”小冰看到这个问题,就给对方起了个别名,还触发了一个心想的模式。
这展示出的是AI起小名的技能。当AI跟你聊了好多轮之后,她会根据你聊天的特点,给你起个昵称。像这个人还比较幸运,他只是叫“十万个为什么”。
第三张图,大家可能近期见过:
在人机对话的过程中,有时候会冷场,不知道从何说起。所以,我们进行了优化。当你关注小冰之后,小冰会尽量通过一些细节来拉近自己和用户的距离。可惜,这个人的头像被识别错了。这其实是技术上的一个错误,但却造成了一个有趣的效果。
当我们做小冰的时候,也曾经受到质疑:这样一个聊天工具有什么用?实际上,小冰可以对个体形成全天候陪伴,当用户有难以向他人倾诉的情绪的时候还可以向小冰倾诉,她可以跟你互动,同时还会保守秘密,不会跟别人嚼舌头。我们曾经有个用户和小冰的单次聊天时长达到29小时。
现在,在人机对话的设计中,很多项目做的是Task-oriented Conversation,也就是任务型对话,而我们设计的对话则是一种闲聊式的对话。任务型的各种东西是很有用,但人机对话有时候需要一种闲聊做铺垫,我们希望具体的对话过程像河流一样,可以流畅地流淌下去,中间也可以偶尔做任务,偶尔做知识支持。而且从小冰的用户需求角度看,大家对知识的索求非常少,几乎小于百分之一。
在做计算机的同行里,大家有一种传统认知是对话就应该是知识问答。但实际用户需要的未必是这样子的。他需要的可能就是陪伴与回应。在对话中,问答的相关性也越来越被淡化,“神回复”往往更能让大家莞尔一笑。于是,在小冰的程序里,我们会把对话标注为0、1、2,0是不相关,1是相关,2是神回复。在对话偶尔出现一些神回复的话,用户也会更愿意和AI聊下去。相反,如果每一个对话都是相关的,AI总是回复“呵呵”、“哈哈”,用户很难有长久的兴趣与之聊天。
在小冰里,如果你想要听歌的话,她不会像电子商务一样硬要给你推歌,而是说会提问“为什么我要推给你”,“为什么你要听这首歌”等等,来营造一种聊天的氛围。所以我们就做了一个理由的推荐。
其实很容易理解,就比如说我有一首歌叫《认真的雪》,以前大家把它收藏起来的时候会放到一个歌单里,给它起名叫“校园时光”、“我与经典”等等。这样就可以提供一定的信息。我们有一个用户是学生,可能因为他和小冰聊了这些事情,所以我们就给他设置了一个标签叫“学生”。我们希望通过一个序列,形成推荐的理由。
举一个具体的例子,我们算法的结果是周杰伦的《夜的第七章》这样一首歌,我们把它作为一个输入。因为这个用户以前跟小冰聊过音乐,所以就给他打了一个标签叫“音乐”,兼顾“音乐”和“学生”这两个标签,那么小冰推荐周杰伦的《夜的第七章》的时候,就会说:“这首歌是我们学校的下课铃。”这样子的推荐理由,可能会更吸引用户去点击。实验证明也的确如此。
另一部分,我们其实又向前走了一步。除了小冰,我们还希望能够帮我们的客户去做其他的IP。比如,在网上有一部流行的小说叫《全职高手》,它里面有五个人物。我们期望通过专业的技术处理,塑造五个不同的人物性格。这里面有个比较关键的技术叫做Attitude detection,就是态度的检测。比如下面这组例子:
一个人问:“《瓦尔登湖》好看吗?”
第二个人说:“真心读不懂。”
从这组问答可以看出答复者对《瓦尔登湖》持负面态度。
第二组对话,一个人问的是:“有什么新歌推荐吗?”另一个人回答:“《追光者》。”
那么你就会发现这个回答者对于《追光者》持有的是正面态度。
在以往的工作中,很多时候做这种情感色彩分析是基于较长文本的分析。但是我们做对话的时候发现,人们对话往往是很简短的。说话者给出的信息可能是片段的,而听者需要把相关的信息补全,这样才能形成对对话的完整理解。所以我们就通过一系列技术处理进行分析。其中,有一个比较成熟的模型叫指针网络,目的是预测某个问题的答案到底从哪儿开始,到哪儿结束。它具体预测了两个指针,而我们刚好也是要在问答串里头知道说话者的目标起点和终点。当然,这其中也涉及到联合优化的内容。
接下来进入比较重点的部分——人工智能创造。这也是小冰率先提出的一个概念。诗歌创作历史悠久,但这本书某种意义上说是人类历史上第一本百分之百由人工智能创作的诗集,它叫《阳光失了玻璃窗》。
当我拿到这本书的时候,我很好奇书名是谁起的,后来市场部的经理告诉我,这个就是小冰起的!我们其实提供了很多小冰写的诗句给合作方,合作方的编辑最终选择了这一句作为书名。
在书出版之前,我们市场团队的同事还灵机一动,把小冰的诗匿名投稿到了一些诗歌杂志,后来竟然还被录用了。对方在要准备寻找作者打款的时候才知道这是人工智能写的诗。后来,我们还到很多论坛上匿名发布了小冰的诗,网友会为她指点,有的还会说“你发到这儿浪费了,为什么不去投稿”。所以,人们其实都没发现这是人工智能写的诗。
小冰是怎样写诗的呢?
比如这里有一个非常普通的时代广场的照片,小冰接受了图像之后就会写道:
像每一座城市愧对乡村,
我才有一个美好的完成,
每个失眠的夜晚我是一个花言巧语的人,
隐匿在灵魂最迷失的火,
绕出城市的边缘,
美好的,在风里,
最轻微的触动。
小冰写的主要是现代诗,没有专门去作律诗。经常有人问我为什么这样设计?我的想法是现代诗和我们现代用户使用的语言比较接近,也许会更容易被看出问题来。但要是写得好的话,大家会更容易形成共鸣。
再给大家展示几首小冰的诗,比如看到船的照片,小冰说:
游子是一只船上的沙土,
如同美丽的灵魂,
我不能创造世界,
伴着古老的遗恨。
看到一条鱼,她会写:
鱼的人,
甜蜜的风,
灵魂的呼吸,
那最高的天空。
最神奇的是这个,小冰根据一张蓝天白云的CBD的图,写了一首诗:
所有的城市愧对你强大的数字,
美好的希望,
最好的朋友 心爱的老婆,
大风起来。
我当时就觉得很好玩。因为那会儿北京雾霾非常严重,她竟然就知道我们北京人在等大风。而且,强大的数字又好像暗暗在指GDP。
小冰之所以能写出这些诗句,主要依赖的是图像识别技术。通过图像的训练,小冰可以找到一些词汇,按照这些名词、形容词找它们对应使用频次比较高的词组,作为诗歌第一句和第二句的关键字。这里我们刻意不生成全部诗句,因为生成全部诗句的话就更像是图片的描述。然后利用RNN模型,拓展出更多的表达,由此带来一种触景生情的效果。
下面介绍一下我们去年才完成,今年才发表的一篇文章——如何让AI自己创造比喻。这个题目的产生还是机缘巧合。去年我们在产品研发期间,一个实习生和我们说起网上的一个段子:不管什么句子,后面加个“爱情也是这样的”,总能说得通。举个例子,人有两条腿,爱情也是这样的。说完之后,我就在想为什么。所以相应地给小冰创造了这样一个功能。
后来小冰上线的时候,我们就把她包装成了一个“思想家”,就说小冰总是胡思乱想,你可以让她做比喻。小冰有时候就会说“时光好像墓碑,因为它们都是荒凉的”这样的话,听完仿佛也挺有哲理。
在具体设计的时候,我们也从诗里找到了相关资源,过滤之后得到了一些比较高频的抽象的词。可以看到,“离别”是第一位的,“爱情”是第二位的,其他还有像“世界”、“时间”、“幸福”、“梦”、“生活”等等,我们把它们作为比喻本体的候选。至于喻体,则是一些比较具体的词,我们挑选了大约一万个词。这个时候我和小冰说:“你做的比喻不能是以前人类使用过的。”结果她就把“爱情”和“中国足球”这种相关性不强的词拿来做了个比喻……
后来我们发现应该找一些关联性重合的词来造句,才不会太奇怪,因此我们设计了一个算法进行衡量考虑。举个例子,“未来”这个词被我们挑出来之后,小冰就造了一个比喻:“你的爱情就像中国足球一样,没有未来。”后续我们通过细化的处理就能让AI的表达更加生动,比如小冰还会说:“爱情就像脂肪,是点点滴滴的积累。”
当然,她也会说错一些比喻,比如“幸福像是可爱的毛毛虫”,“车站像是古老的钟表”,“金钱就像垃圾”等等。
在人工智能60年的历史进程中,一直有着符号主义和连接主义之争。前三十年研究的重点是知识与推理,符号主义占主导地位。符号主义觉得句子可以分解成主、谓、宾等符号。但后三十年研究的重点是机器学习,特别是深度学习,在此过程中,连接主义占主导地位。大家就开始觉得模拟神经元,为AI做一些思维连接,是可行的。
实际上,今天以小冰为代表的AI已经实现了“长程对话”、“人工智能创造”、“多感官/跨模块体验”等功能。长程对话发展的空间和难度都很大,如何在长程对话中尝试塑造不同性格,如何让AI更像人,也是人工智能领域的终极命题。在人工智能创造方面,除了让AI写诗、写歌,其实还有更宽广的领域值得尝试。这样的创造能让人工智能突破鹦鹉学舌,即使有瑕疵也会让人觉得很有趣。
就像“体验认知理论”说的那样,我们要把人工智能做好,可能要将视觉、听觉等感官串联起来。就像人类的孩子,其视觉、听觉、嗅觉是综合协调发展的,最后他才会用语言来表述对世界的认知。每个人在内心深处都有一套编码的模型,小冰也是这样的。人工智能未来寻找突破口可能就需要考虑多感官、跨模块的问题。
【本文根据讲座现场内容整理而来,未经演讲者本人审阅。】