随着科学技术的不断更新,原来科幻小说中存在的东西开始出现在我们的日常生活中。人工智能就是其中之一。
包括我们日常使用的电视、空调、冰箱等都拥有人工智能,许多扫地机器人也能做到,消费者通过语音发送命令,实现人机的交互。在整个电视行业里人工智能语音识别基本成为了智能电视的标配,如果说没有智能语音识别的彩电都不好意思称自己是智能电视。但“人工智能”并未引起消费者的兴趣,并没有为“寒流”中的彩电市场加上一把火。
多半蹭“智能”热点但很智障
为什么不受欢迎?答案很简单,就目前主打智能电视的市场上,其智能语音体验不智能还有点智障。
举个“栗子”,想用语音调节音量,须拿起遥控器按住语音键不放手,说出“调大音量”,更崩溃的是,还有可能因为环境干扰或口音问题导致语音识别不了,需要再尝试一遍。原本就是贪图方便,没想到语音控制不仅费手还要费口。甚至很多停留在关键词匹配搜索上,无论是识别的速度、语义的理解都远远达不到真正的人工智能。
海信、TCL、长虹发力智能语音
不过在“人工智能”热潮推动下,人工智能电视也被推进了优化升级的快车道,无论是传统品牌还是互联网品牌都发力缩短“语音响应时间”、提高“方言识别准确度”。
TCL推出了“人工智能小T”,采用语音识别、语义识别和图像识别技术,让用户在观影过程中的所有画面内容都可以作为检索的关键信息;同时,用户可在任何状态下,直接下达语音命令,电视在接受语音识别指令后,可在任何场景实现跳转并呈现内容。
长虹旗下CHiQ人工智能电视具有远场语音、声纹识别技术,突破性地实现丢掉手机、遥控器,直接与用户进行自然交互,并借助云计算平台,建立起每个家庭成员独一无二的声纹数据库,能够在家庭应用环境中快速精准地实现家庭成员的身份识别,识别率超过90%。
就人工智能,海信最近也高调发布解决方案,其VIDAA AI系统不仅集成了自主开发的语义引擎,能精准识别语音,理解语义,还将图像交互技术首次引入电视当中。其全场景语音交互打通VIDAA AI平台下34大类生活场景的全部交互支持,同时支持普通话、粤语、四川话、湖南话、上海话、闽南语六大方言。同时,能够识别多达33种人物关系,使得千人千面成为可能。
全场景实时图像搜索技术属业内首例,特设“小聚”键,快速开启画面截图分享和图像识别功能,其信息搜索支持20000+明星,400+类约10000+种的物品,1000+电视台台标、物品和4级复杂程度二维码识别。依托大数据的基础,使电视具备了用户的“思维能力”和“学习能力”,让电视屏幕成为消费者生活场景的延伸。
三大国产电视人工智能对决
是文案上吹嘘还是实力的自信?选取了海信、TCL和长虹三大国产品牌旗下最具代表性的人工智能电视进行智能语音功能的对比,从识别速度、语义理解、多轮对话、声纹识别等七个维度去分析,看看现在的人工智能电视的语音水平究竟到了什么水准?
三大旗舰人工智能视频演示
最终锁定在TCL P6、海信U7A、长虹Q5K三款高端机型,无论是硬件配置还是系统软实力,都代表了三家电视品牌的技术实力水平。
横评项目说明与评分标准
2018年人工智能电视横评项目说明与评分标准 | ||||
评测项目 | 项目简介 | |||
电视响应速度测试(15分) | 日常交互内容,天气、股票、提醒、百科等 | |||
语义理解准确度测试(15分) | 复杂语句 | |||
多伦对话支持测试(15分) | 上下文衔接 | |||
业务覆盖面测试(15分) | 衣食住行、直播、翻译各方面 | |||
全程语音控制(15分) | 各种情况下语音操作的可行性 | |||
声纹识别(10分) | 声音录入区分 | |||
图像识别测试(15分) | 画面内容物识别准确率与多样性 |
一、电视响应速度测试(15分)
人工智能语音电视的最大优势就是省去遥控器按键操作环节,节省按键搜索的时间,所以反应速度非常重要。反之,如果一台智能语音电视的语音识别速度比我们按键搜寻节目所花的时间还多,那意义又何在?换句话讲,语音识别速度是前提,在这个前提得到保障后,才有必要了解其准确度、方言、应用场景。
通过向三款智能电视发送相同的指令,在主页下,“广州明天的天气怎么样”、“最新一期的双色球开奖结果”、“我想看熊爸熊孩子”;在视频播放情况下,“快进30分钟”、“播放第30分钟”等9条指令。
2018人工智能电视横评响应速度得分 | |||||
产品型号 | 海信U7A | TCL P6 | 长虹Q5K | ||
主观评分 | 10 | 8 | 2 |
小结:从测试结果看,9条指令中,海信和TCL都有5-6次最快做出响应,大概1-2秒内出现搜索结果,而长虹表现欠佳,仅一次快速做出响应,且速度只是跟其他两款产品响应速度持平,而对于其他指令,长虹的响应时间大概维持在4秒左右。
二、语义理解准确度测试(15分)
每个人的说话方式都有所差异,但意思是一样的,尤其中文的博大精深,同个目的可以有N种表达方式,所以人工智能电视语音识别的应变能力到底能不能应付得了不同的问法,这也是考验它到底是“真智能”还是“伪智能”的一大关键因素。为了测试智能电视对语音语义理解的准确度,将语音划分了三个难度级别。
难度一:“邓超和他老婆的电影”,需要判断任务关系并检索电影资源,海信和TCL都可以判断并检索出邓超夫妻合作的电影资源,长虹只直接跳转孙俪 的电影,语义理解不准确。
难度二:给出两个相同的语音指令,但措辞有所不同,可以很好判断测试电视的语音智能对于中文语义理解的准确度。测试发现,三款测试电视对于“急诊科医生”都可以很快搜索并呈现影视资源,而换种说法的“急诊科大夫”,海信、长虹依旧可以识别并给出答案,但TCL就反应不过来。
更为丧心病狂的提问来了,“宋妍的老公的哥哥的老婆”,需要判断四层人物关系。这句话到底主要问的是谁呢?最终海信和TCL给出了正确答案,长虹表示已凌乱。
2018人工智能电视横评语义理解得分 | |||||
产品型号 | 海信U7A | TCL P6 | 长虹Q5K | ||
主观评分 | 15 | 10 | 3 |
小结:再尝试其他语音指令,测试发现,海信是三款测试电视中识别准确率最高的,TCL表现稍逊一筹,长虹的智能语音就完全达不到期待,几项语音指令测试,仅2次可以给出正确的结果。
三、多伦对话支持测试(15分)
语音交互最难的地方就是上下文内容的衔接。比如你想看电影,下达指令“我想看欧美大片”,电视模糊搜索了一遍欧美大片,但突然又想看好欧美大片里的悬疑电影,于是会接着说“悬疑的”。到这里,相信大部分的智能语音就开始蒙圈了,可能直接给出了“悬疑电影”,如果继续给定其他条件的话,也只会越来越乱。也就是,两句语音指令之间没有任何上下文衔接,并不能称之为“智能”。那么三款测试电视是否可以做到智能对话呢?
第一句:我想看电影
第二句:欧美的
第三句:不要恐怖的
第四句:不要成龙的
第五句:2017年的
海信 U7A
TCL P6
长虹Q5K
2018人工智能电视横评响应速度多轮对话得分 | |||||
产品型号 | 海信U7A | TCL P6 | 长虹Q5K | ||
主观评分 | 15 | 12 | 5 |
小结:此时三款测试电视的差异就更明显了,海信最终显示“为您找到非恐怖 非成龙 最新 欧美 电影X部”;TCL执行前四句指令都正常,但在收到第五句“2017年的”指令时,TCL直接罗列出了2017年的全部电影,TCL的成绩锁定在四轮对话;长虹执行“我想看电影”第一句语音后已卒。
四、业务覆盖面测试(15分)
智能电视最为一块优质的大屏,这是在其他任何设备上都体验不到的视觉震撼,如果单纯只是搜索资源、调调音量并不能说是人工智能。为了最大化利用电视大屏,尽可能容纳多的内容,覆盖生活各个方面。
这里通过一系列生活语音指令进行检测,包括购物搜索、寻找美食、翻译、计算、系统操作等,如果在交互方式上变得更高效,那存在科幻片中的人工智能交流离得不远了。
2018人工智能电视横评业务覆盖得分 | |||||
产品型号 | 海信U7A | TCL P6 | 长虹Q5K | ||
主观评分 | 15 | 8 | 4 |
小结:发布23条指令后,包括查询天气、股票,打开系统内游戏、应用;简单的数学计算、设定闹钟、日历提醒;翻译、古诗词;智能家居控制、视频通话等等,海信都能通过语音来操控;TCL表现一般,能够执行12条语音指令,长虹表现是三者中较弱的,对于购物、美食、酒店等生活场景的语音指令,更多得到的答复是“暂不支持该功能”。
五、全程语音控制(15分)
如果说一款电视在智能语音上,搜索内容是一大因素,那另一因素,则是其常规的语音操控功能。如果在常规的操控上都能够轻松应对,这样的电视语音技术算达标了,剩下就是数据库问题了。
我们通过播放影视,在播放影视的过程中,进行常规操作语音测试。依次发布指令“回到主页-电视剧-猎场-全屏播放-播放第30分钟-下一集-退出-返回-电影-应用”。
2018人工智能电视横评全程语音得分 | |||||
产品型号 | 海信U7A | TCL P6 | 长虹Q5K | ||
主观评分 | 15 | 15 | 8 |
小结:整个操作过程,海信和TCL都可以迅速反应,且命令执行正确,没啥可以吐槽的。长虹可以执行电视剧的点播,但在播放全过程,长虹仅剩调节音量的语音操作功能,其他如进度、选集、全屏等都无法支持。
六、声纹识别(10分)
可以根据下指令的人的声纹进行分析,判断其年龄、性别,提高推荐内容与用户需求的匹配度,成为了衡量语音技术竞争力高低的一大因素,也是电视厂商语音功能的一大亮点。
TCL测试电视不支持声纹识别功能,长虹支持声纹识别,但有一个前提,要提前录入主人的声音形成数据库信息,才能开启声纹的识别,实现内容个性化推荐。
海信 U7A:男声下达指令
海信 U7A:女声下达指令
海信 U7A:童声下达指令
海信测试电视也支持声纹识别,不同于长虹电视,海信无需提前录入主人的声音,执行“开始声纹识别”后,海信的声纹识别自动开始,自动辨别下指令的对象的年龄、性别等声纹信息,会根据这些来个性化推荐内容。比如录入男性和女性语音“我要看电影”出来的结果是不同的,女性会出现较多情感类电影。而如果是儿童语音“我想看恐怖片”,系统则会屏蔽恐怖电影,提示儿童不宜,而推荐少儿视频。
此外,海信还支持普通话、粤语、四川话、湖南话、上海话、闽南语六大方言。切不只是听这个层面,可以将电视语音播报的声音也切换至方言,更消费者倍感亲切感,尤其是方言地区的老人家,在普通话不顺溜地时候,也可以随心所欲地利用语音操控电视。
2018人工智能电视横评声纹识别得分 | |||||
产品型号 | 海信U7A | TCL P6 | 长虹Q5K | ||
主观评分 | 10 | 2 | 5 |
小结:对于用户来说,这种个性化的服务是很有需要的,尤其在影视资源还没有分级的情况下,声纹识别有助于帮助少儿规避暴力情色等影视,但就目前电视行业发展而言,海信一家独秀,其他电视品牌能否是否追上,还需要一定时间的打磨。
七、图像识别测试(15分)
当用户看到电视剧的时候,觉得视频画面很有趣可以直接截图并分享给朋友,让电视实时社交成为可能。当用户想进一步了解视频中的演员情况时可以直接截图并识别,VIDAAAI系统不仅能够识别演员,提供演员相关信息,还能够准确识别演员身上的眼镜、鞋、衣服等。演员身上的同款物品也可以实时跟淘宝网对接,如果用户感兴趣,可以直接打开相关购物连接,扫码支付。
不知道你是否有这么一刻,看影视的时候,对主角的着装很感兴趣,想找找同款,想拍照上X宝搜索,但很考验手速。;是否有这么一刻,被视频上的段子梗逗乐想分享给朋友,手机上看似很简单的社交功能,在电视上操作就繁琐了很多,随着智能电视的发展,越来越多电视厂商尝试将电视图像识别功能落地。
经测试,长虹不支持图像识别功能;TCL支持图像识别,但存在两个缺陷,一方面,通过语音下达指令,但从下达语音到电视接收,这过程存在一定的延迟,比如看电视剧的时候,语音这是谁,画面早就过去了,原本想要识别的那个人已经不再画面里,体验就会稍差。其次,TCL的图像识别功能仅局限于对人物的识别,对于画面出现的物品等其他信息表示无能为力。
海信的图像识别既可以通过语音命令,也可以在播放各类电视画面时,一旦按下遥控器“小聚”键,就会自动开启电视画面截图分享与图像识别功能,仅需0.1秒即可将画面抓拍下来,同时可快速识别画面中所呈现的各种信息,诸如某种商品、某位明星,以及某个台标或某种二维码等,并且实现具体的背景内容文字解读,相对于声音操控更加精准快速。
此外,海信电视搜索内容并不会局限于某一业务,一旦圈定各等体育大腕或文娱小咖等,与之关联的新闻、摄影、同款购物和八卦的信息顿时一并呈现,而且可实现多人同步识别效果。
2018人工智能电视横评图像识别得分 | |||||
产品型号 | 海信U7A | TCL P6 | 长虹Q5K | ||
主观评分 | 15 | 11 | 0 |
小结:图像识别功能的加入,丰富了电视的交互性,同时让电视社交成为可能,不再局限于客厅娱乐,可以分享画面。相比之下,海信图像识别功能比TCL的更为丰富,可玩性也更高。
总结:经过7个维度测试,海信在语音智能方面花的功夫不少,从语音识别的速度、语义理解抑或是多轮对话、声纹识别等都完爆TCL、长虹两大品牌旗舰机,同时在图像识别的黑科技加持下,极大丰富了电视的娱乐性和交互体验;TCL智能语音技术也不算差,只是在海信面前稍逊一筹;长虹的智能语音优化升级路还遥远,虽大量复杂的操作都可以用简单语音指令完成,但语义理解和覆盖业务面还十分狭窄。原本以为是一场实力相当的较量,最终成了一场智商压制的屠杀。
2018人工智能电视横评总体得分 | |||||
评测项目 | 海信U7A | TCL P6 | 长虹Q5K | ||
电视响应速度测试(15分) | 10 | 8 | 2 | ||
语义理解准确度测试(15分) | 15 | 10 | 3 | ||
多伦对话支持测试(15分) | 15 | 12 | 5 | ||
业务覆盖面测试(15分) | 15 | 8 | 4 | ||
全程语音控制(15分) | 15 | 15 | 8 | ||
声纹识别测试(10分) | 10 | 2 | 5 | ||
图像识别测试(15分) | 15 | 11 | 0 | ||
主观总体评分 | 95 | 66 | 27 |
虽然当下人工智能电视还处于起步阶段,但不可否认的事,国内智能语音的发展速度突飞猛进,不同于某些互联网品牌借“人工智能”进行概念炒作,传统电视厂商是用实力在说话。可能还存在一定的瑕疵,在众多厂商一同发力,完善的“人工智能”交互体验必将成为电视的标配。