您的位置 首页 > 爱车一族

20款本田宾智语音功能怎么使用

智东西(公众号:zhidxcom)

编译 | 高歌

编辑 | 云鹏

智东西3月30日消息,昨天,EE Times介绍了对话式人工智能(AI)目前的瓶颈与相关厂商的解决方案。

当前,云端语音处理成本较高,存在可能泄露用户隐私、可靠性不足、延迟较高等问题。而对话式AI的高功耗,技术多样、难以集成更是阻碍了技术发展。

加拿大语音边缘AI平台PicoVoice、美国AI芯片初创公司Syntiant和音频方案供应商Knowles针对不同角度,各自给出了解决方案。

一、便捷性与低成本推动对话式AI进入边缘

当前,语音控制和语音接口已经开始应用于消费电子设备边缘,而语音识别算法和AI芯片的进步,可能将进一步推动对话式人工智能(AI)应用于功耗、成本更低的设备中,比如智能家居、可穿戴、可听设备等。

从用户角度来看,便捷性和成本是推动语音技术发展最主要的两个因素。

加拿大语音边缘AI平台PicoVoice的首席执行官Alireza Kenarsari-Anhari称,便捷性是目前语音控制的主要驱动力之一。

Alireza Kenarsari-Anhari(来源:PicoVoice)

他如此描述语音控制的未来:“想像一下,想要喝咖啡时,您会从办公桌上通过语音控制屋里的咖啡机,或者拿着一篮湿衣服向滚筒式洗衣机下达命令。”

由于智能家居可能会一直与家用Wi-Fi相连,在云端运行语音算法看上去可能会更简单一些。但是Kenarsari-Anhari则认为云端处理语音数据有很多问题。

首先,如果用户的语音数据都在云端处理,那么消费者的隐私就有可能遭到泄露。

可靠性也是一个需要考虑的问题,Kenarsari-Anhari认为,如果Wi-Fi网络产生波动、断开,洗衣机等设备需要能够继续运行。

某些情况下,低延迟也是一个重要的指标。在游戏、互动等环节中,边缘语音处理将更好的避免网络波动带来的延迟。

除此之外,成本也是语音边缘处理的一个主要因素。目前,云端处理语音数据需要花费一定的资金,而每次都要对云端付费的业务模型并不适用于家用电器和消费电子产品,因为这些产品的语音需求较低,并且每天会使用多次。

以声控咖啡机为例,使用公共云服务的声控咖啡机如果每天使用10次,则每台设备每年将产生15美元左右的费用,而如果使用咖啡机CPU上的现有资源就可以避免这些费用。

目前PicoVoice的AI语音、文本推理引擎的目标是在低于1美元的微处理器(MCU)上应用,实现更多低成本设备的语音控制,应用范围将包括可穿戴设备与可听设备。

Kenarsari-Anhari称,基于MCU的语音解决方案将同时兼顾设备中电源和成本的优化,在工业、安全和医疗等领域中创造更大的价值。

最近PicoVoice推出了Shepherd无代码平台,通过搭配PicoVoice Console模型创建软件,用户可以在MCU上构建语音应用算法。目前Shepherd支持意法半导体和恩智浦的Arm Cortex-M微处理器以及一些其他型号设备。

Kenarsari-Anhari对记者称,语音是一种开发界面,就和现在不用编码即可构建GUI或网站一样,未来语音界面也可以做到类似的事情。虽然现在PicoVoice的开发人员在构建相关原型并快速迭代,但Kenarsari-Anhari希望能够让普通用户也能构建模型,让每个人都可以拥有一个自己的专属语音助手。

这需要普通人也能够在没有专业软件的情况下,开发自然语言处理模型,难度较高。Kenarsari-Anhari对此回应:“当然可以(做到),苹果、亚马逊、谷歌和微软都已经实现了这一目标,关键在于企业是否拥有足够的资源,能够围绕该目标花费数年的努力。”

二、AI芯片助力语音界面化

并非只有Kenarsari-Anhari看到了语音界面化的未来,美国AI芯片初创公司Syntiant的首席执行官Kurt Busch也在采访中称,语音将成为下一代技术用户的首选界面。

Kurt Busch通过他最小的孩子描述了这一未来。他最小的孩子因为年纪太小,可以阅读却无法写作,借助智能手机的语音功能却实现了与朋友互发短信。

Kurt Busch (来源: Syntiant)

这一功能将孩子们互发短信的时间提前了数年。Kurt Busch称,随着时间流逝,语音、对话将会成为更年轻一代的默认界面。

他将语音比作“未来的触摸屏”,而设备中的语音处理功能也将从PC、笔记本电脑等转向智能家居。

Syntiant公司主要生产用于对话式AI的AI芯片,可在处理低功耗、低成本消费电子设备上使用。

迄今为止,这家初创公司已经在全球范围内售出了超过1千万颗芯片,其中大部分应用于手机中,提供一直在线的关键字检测。

Syntiant的最新芯片NDP120可以识别诸如“ OK Google”之类的热门单词,在280µW以下的功率激活谷歌助手。

Kurt Busch认为对话式AI将是一种每个人都可以使用的连接、访问技术,可以让更多人获得更好的生活。

他强调,当前世界上有30亿人每天的生活费仅为2美元,占到世界人口的近1/3,这些人大部分没有互联网访问权限,没有受过教育,不会写字、阅读,语音界面化对他们来说意义重大。

在这种情况下,很多发展中国家已经对对话式AI产生了很大的兴趣。

三、Knowles解决语音控制碎片化难题

虽然语音技术的发展潜力很大,但是在高速发展下,对话式AI市场可能会变得碎片化。

音频方案供应商Knowles高级总监Vikram Shirastava提到,由于多种语音识别引擎的出现,对话式AI市场将会比较分散。集成于SoC或MCU、操作系统不同、声学环境差异等都将造成语音解决方案的不同。

Vikram Shrivastava(来源:Knowles)

他认为,如果想要解决语音集成问题,必须找到每个垂直领域的共同点。据他介绍,Knowles有一套基于DSP(数字信号处理)的语音控制解决方案,可以引入不同垂直领域的语音控制技术。

该方案通过找出不同语音技术的共同点,比如家用控件、电视条形音响和遥控器可能属于同一类,之后再针对这一类技术进行优化。

Shirastava称这种方法为“下一级交钥匙(one level below turnkey)“,交钥匙工程是一种商业模式,当一家公司完成设计、建造时,将会把所有权和管理权等”钥匙“交给另外一方进行运营。据他介绍,Knowles的方案具备交钥匙工程的扩展性,又增加了一些灵活性。

有时,Knowles也会针对某些领域开发不同的版本,以覆盖某个垂直领域。其最新版本的AISonic蓝牙标准解决方案是一种开发套件,用于在与蓝牙连接的设备(例如智能扬声器、智能家居设备、可穿戴设备和车载语音助手等)中进行语音识别。

该套件基于Knowles的IA8201双核DSP芯片,专门针对神经网络处理而设计,其功耗远低于应用处理器。使用该芯片可以在50mW以下的同时处理单独的AI模型,同时进行关键字点播、源分类、波束形成、声学回声消除(AEC)和源方向估计。

IA8201的秘密武器是Tensilica DSP内核上的指令集,该指令集包含近400条用于音频和AI处理的自定义指令,可以降低时钟频率实现降低功耗。

结语:语音界面化阻碍正在被打破

随着AI技术的不断进步,对话式AI正在成为解放双手和提高生产力的关键工具。复杂的语音开发环境、云端处理语音数据成本较高、设备的高功耗、市场碎片化等都是语音界面化的阻碍因素。

而随着边缘AI语音平台能够为开发人员提供更方便的语音开发环境;AI芯片使语音识别更加准确,让语音控制可以应用于低功耗、低成本的设备中;而通过集成多种语音控制技术,或许可以解决语音市场碎片化的问题。

未来,因为语言的便捷性,语音界面可能将成为未来下一代“触摸屏”,帮助更多无法阅读、写作的人群享受到科技的便利。

来源:EE Times

责任编辑: 鲁达

1.内容基于多重复合算法人工智能语言模型创作,旨在以深度学习研究为目的传播信息知识,内容观点与本网站无关,反馈举报请
2.仅供读者参考,本网站未对该内容进行证实,对其原创性、真实性、完整性、及时性不作任何保证;
3.本站属于非营利性站点无毒无广告,请读者放心使用!

“20款本田宾智语音功能怎么使用”边界阅读