希望通过 语音输入 提高输入效率,甚至代替手工输入,并不是什么新鲜事。
很久以前,IBM 就推出了一款 软件工具 「ViaVoice」 ,希望能够帮助电脑用户使用 说出自然语言来代替手工打字。然而,这款软件除了在特定行业以外,并没有大范围流行起来。
直到近年来,锤子手机的老罗搞出一个叫做「TNT工作站」的产品,再次把语音输入作为一种主流交互方式带到了大家面前。 然而,「TNT工作站」虽然宣传得好,实际上网民的对其的理解是这样的。
TNT语音交互的初衷也许是好的,但是排除技术因素,一个比较显著问题是:在办公室里,我们没法像个傻X一样,对着电脑大喊大叫。这样做不仅会影响到周围同事工作,而且语音识别也会被周围同事的谈话或办公室背景噪音所影响。
所以,这次趁着大家都在家「远程办公」的时候,我们也在相对安静,相对隔绝的家庭环境下,测试了一下电脑上的「语音输入」。
现在,让我们看看,使用语音输入到底能不能带来文字输入上的效率提高?
准备工作
除了一台 Windows(或Mac) 电脑,我们还需要准备:
- 讯飞语音输入法 软件(支持Windows/Mac)
- (最好外置的)麦克风
- 一个安静封闭的室内环境
火箭君原本想使用 Windows 内置的语音识别,但是其识别效果很差,而且会提示要求我们训练语音输入,非常麻烦,感觉像是上个世纪的科技水平,因此我们不推荐。
Windows下的「语音识别」设置非常复杂
另外,虽然很多笔记本都携带内置麦克风,这种设备用于视频聊天也许还不错,但是用于语音输入的话,效果会大打折扣因此我们还是建议条件许可的朋友,尽量使用外置麦克风,无论是那种廉价的有线「小蜜蜂」,无线的蓝牙耳机,还是网红主播使用的专业麦克风,它们的效果都远远好于电脑内置的麦克风。
关于「环境」 ,除了尽可能的安静,还要保证一些数字设备处于静音状态,不要发出提示音。有时说了一句长话,却被一个短信提示声音打断,实在是一件非常懊恼的事情。
习惯配置
「讯飞语音输入」安装后允许我们根据自身偏好进行一些设置,火箭君做出了如下配置。 大家如果有更习惯更喜欢的方式,可以自行调整。
1. 按住说话
「讯飞」有两种「听写模式」可供我们选择。* 按住说话* 连续语音
火箭君选择了「按住说话」模式,每说一句,让机器听写一句,同时能立刻看到结果,做出必要的编辑。
而「连续语音」一旦开启,就会一直处于听写状态,也因此会产生很多的误写,或者被噪音打断,这种情况下,对自己的思路和表达有较高的要求。倒是比较适合当时无法立刻修改,需要事后大量编辑的场景
2. 悬浮窗
讯飞可以让我们在桌面上单独显示一个「麦克风」悬浮按钮,这个按钮一旦按下,就进入「按住说话」的听写模式。这样,我们就既能使用键盘快捷键也能使用鼠标按钮,触发语音输入了。这个悬浮窗还有一个好处,可以让我们在没有切换到讯飞语音输入法时,也能够立刻开始听写。
3.混合其它手动输入法
配合上述的悬浮窗按钮,我们混合使用了一个常用的手工输入法,操作系统自带的「微软拼音」。「微软拼音」下我们有很多自定义的「快捷用语」,我们可以充分利用起来。
结合手工输入自定义短语,效率更高
经过上述的选项组合,我们可以用微软拼音手工输入,想要省力的时候,直接按下快捷键或鼠标按钮,让讯飞语音进行听写,然后用手工输入法进行编辑。
实际效果
在连续几天「远程办公」的实际情况下
1. 简单对话回复场景
结论:非常适合
在PC上的即时通讯工具上,有时我们懒得打字回复,可以使用语音输入法快速的将一段话变成文字发送出去。这个体验就和微信上的「按住说话」几乎是一样。由于对话内容比较口语化,而且一般不会很长,所以识别率都比较高,一般无需编辑就能发送,效果非常好。
2. 撰写 邮件 / 备忘录 / 小段报告
结论:效率略有提升
撰写邮件时,不可避免的会涉及很多术语,工作专用词汇,这时语音输入法,很容易被打断或者产生识别错误。 如果邮件内容不复杂,更像是简单对话回复的话,语音输入还是很有用,否则的话可能效率没有手工输入高。
例如: 我们需要在邮件中涉及到产品名称/型号,或者涉及到一些复杂的术语。这时,语音输入往往会产生完全无关的识别,如果我们立刻手工修改错误,会造成输入的连贯性被打断,而如果事后修改,有可能会忘记一些内容,因此也不太适合较长或者较严谨的 邮件/报告。
3. 连续码字
结论:需要大规模结合手工输入,效率提升有限
这条就相当于上一条的加强版,长篇输入时,尤其是专业内容输入时,语音识别成功不会太高。如果我们每时每刻要修正输入内容,那必须要结合手工输入法。而这样一来,我们的思路会在「组织语言」和「手动打字」之间跳跃,输入效率可能反而会有所下降。 当然,我们也可以连续听写下一段话,然后事后来修改编辑,这样做对自己的思维和表达都要有非常高的要求,否则听写内容过多后,事后来看,火箭君自己也不知道自己当时在说些什么,也就无从着手编辑。
4. 其它一些问题
- 对声音环境要求较高
窗外突发的汽车鸣笛,手机的来电来信提示音都能对听写造成破坏。语音输入,毕竟容错性能还是很有限的,不能苛求。
- 中英文混合输入还是比较困难
目前似乎也很难无缝在中英文之间切换识别,手工输入法有时也不一定能做到,对于语音输入,这个太难了。所以需要我们尽量好好说中文,不要动不动夹杂 「黄焖Jimmy饭」 之类的话语。
- 输入习惯需要改变
这点可能才是真正的问题,火箭君没有料到,由于长期习惯了手工输入,对语音输入其实还是有种天然的「初期排斥感」。使用多了以后才会慢慢适应,可能有些小伙伴也未必愿意跨过这第一道坎。
最后
总的来说,在目前的技术水平下,语音输入貌似不是一种理想的手工输入替代办法。「语音输入」在口语化内容输入以及较短的回复上,能够带来比较明显的效率提升。 但是,一旦牵涉到长篇专业的输入时,仍旧有比较明显的「力不从心」感。这也就理解了为什么TNT 之类以「语音」为重要卖点之一的所谓「生产力工具」,短期内难以有市场。
最后,本文就是在语音输入和手工输入的混合模式下写成的。有兴趣的小伙伴,如果发现有更好的「语音输入」场景或效率组合的方式,不妨自己动手试试看,说不定会有惊喜。