【vivo输入法突然变了】讯飞输入法蹿红背后：语音输入应用场景局限

本报记者张根深圳报道

徐佳玮在锤子手机发布会现场看到老罗的语音输入演示后，立即下载了即时通讯软件输入机。

“（语音）识别准确率很高，现在已经成为忠实用户了。”徐嘉威告诉21世纪经济报道记者。

锤子科技CEO罗永浩的手机发布会意外捧红了科大讯飞的输入法——除了现场热烈的掌声，一夜之间，社交媒体上众多溢美之词以及惊叹声随之而来；其在AppStore迅速蹿升到工具榜第三位，并成为排名最高的第三方输入法；百度搜索指数显示，近期关键词“讯飞输入法”搜索量大增，7天搜索指数环比增长139%。

事实上，语音识别技术近年来发展迅速，新晋“网红”讯飞输入法早在2010年就已推向市场，目前主流的输入法也都支持语音输入，并有着与讯飞接近的正确率，语音输入并不是一项所谓的“黑科技”。

“很惭愧第一次知道讯飞输入法，也第一次知道现在的语音输入已经发展到97%的准确率了”，作为一名产品经理，徐嘉威发出了“好的产品也许会埋没在人海中不为人知的”感慨。

为什么“好产品会被埋没”？易观智库终端入口分析师朱大林向21世纪经济报道记者指出，目前百度、搜狗等各家的语音输入基本都达到了实用的水平，在用户中认知度较低主要受到固有的使用习惯、当前的用户体验以及应用场景局限的影响。

“网红”输入法

北京时间2010年6月8日凌晨， iPhone历史上最重磅产品之一的iPhone4发布。当晚，科大讯飞几位年轻人就iPhone4做了一个讨论，认为iPhone上基于触屏的全键盘输入由于屏幕太小体验不太好。头脑风暴后，他们决定把科大讯飞的语音技术结合到输入上来。

2010年10月28号，科大讯飞对外发布其语音输入法的第一个版本，这也是最早支持语音输入的输入法。

1999年成立的科大讯飞起源于中国科技大学“人机语音通信实验室”，由27岁的刘庆峰和17个师弟师妹共同建立。

作为国内语音技术提供商，从中文语音合成技术开始，到多语音合成技术，再到语音识别、语音理解和智能问答等，科大讯飞已是国内最主要的语音技术提供商。中国语音产业联盟数据显示，2015年科大讯飞在国内市场占到44%份额，随后是百度的28%和苹果的7%。

记者了解到，目前除了锤子手机使用到讯飞的语音技术，华为、小米、魅族、VIVO、OPPO等手机的内置输入法也在使用讯飞开放平台提供的语音技术。

此外，值得注意的还有科大讯飞的听见·智能会议系统。21世纪经济报道记者在英特尔IDF峰会、第四届中国电子信息博览会等多个场合见到该系统将嘉宾演讲语音实时转成文字“上墙”。据了解，当前该系统主要应用于大型发布会、课程培训、电视节目直播等对语音转文字时效性和准确率要求较高的场景。除提供toB服务，该系统面向个人提供收费转写服务，价格约为99元5小时。

随着移动互联网的发展，2011年科大讯飞成立了移动互联事业部，依托智能语音交互平台“讯飞语音云”，科大讯飞与家电、机器人、手机等诸多领域厂商合作，推动语音应用与硬件的结合。

根据公司2016年半年报，截至2016年6月31日，讯飞开放平台的总用户数已达8.1亿，月活跃用户达2.36亿（同比增长157%），开发者达16万（同比增长228%）；讯飞输入法用户达3.6亿，活跃用户超过1亿，输入法语音用户日覆盖率达到12%（同比增长50%）。

Research and Markets 发布的《全球及中国语音产业报告（2015-2020）》显示，全球最大的语音识别技术公司Nuance仍占据三成市场份额，但已出现下滑趋势。谷歌、微软、苹果和科大讯飞则获得了迅速的增长，全球市场份额分别为20.7%、13.4%、12.9%和6.7%。

应用场景局限

语音智能作为人工智能领域最成熟的技术之一，产业化正在不断加速。被称为“互联网女皇”的玛丽·米克在《2016年互联网趋势》中指出，人机交互的方式正在被语音输入和汽车改变。她认为，由于快速、易操作、个人化以及无需用手，计算界面正在从键盘进化为“麦克风+键盘”，语音接口会成为下一个快速增长的市场。

然而，伴随着技术的发展和成熟，用户教育是一个漫长的过程。但由于语音输入主流应用场景和杀手级应用的缺乏，目前还很难培养用户使用习惯，这也导致了用户对相关产品了解很少。

根据赛诺的《2016年Q3语音输入法行业分析报告》，在语音输入法的使用场景分布中，即时通讯是语音输入使用最多的应用，占比高达94%；具体场景中，“聊天对象太多、来不及打字”占比65%，“输入内容多”占比35%；“手不方便”占比19%。

朱大林指出，作为一种新的交互方式，语音输入需要在允许进行语音输入的环境中进行，其次方言、地名的识别度准确率的问题给用户留下阴影，影响了用户的体验。

科大讯飞方面向21世纪经济报道记者解释，语音输入时，在极短的时间内，输入法的语音识别系统经历了一个极为复杂的分析过程，很多环节容易导致语音识别出现问题。比如对发音人“口音差异”的适配，需要海量数据进行适应训练，使语音识别系统习惯不同人的发音；其实是环境噪声干扰，在语音输入过程中，机器很难分辨出人声和环境噪声，容易把所有的声音都进行识别；再者是网络因素。在线语音识别需要通过网络在服务端与客户端传输数据，网络质量差或传输不稳定易导致语音识别慢、效果差。这些都成为了阻碍语音识别普及的因素。而讯飞方面也指出这是讯飞的语音输入相对国内其他厂商更为深入的地方。

朱大林认为，目前来看，有三类场景可以拓展，首先是商务办公领域，除了发微信、短信，还可以用于邮件书写；其次是出行领域，比如车载控制和对话；再者服务体系中，重复服务或大或小可被简化或替代。

讯飞输入法产品总监翟吉博指出，在市场教育和用户习惯培养方面，可以从大家比较熟悉的，比如用微信发语音的场景，让大众明白通过语音输入文字和直接发语音的区别；另外，在产品和技术本身，在个性化方面有很大的发展空间，未来的语音输入可以为每个人量身打造，通过个人账号实现通讯录人名和定制词库的个性化识别。另外，他还表示，基于手机这种触屏为主的设备，语音不会是完全主流的，在下一个万物互联和VR设备流行的时代，语音技术的春天会真正到来。（编辑：包芳鸣）

责任编辑: 鲁达

推荐阅读