相信大家如今在用智能手机的时候,很多时候都会用语音助手来帮助自己。但其实你知道,如今大部分汽车的汽车语音交互主要是通过方向盘上唤醒语音识别的按钮来开启的,可问题是现在的语音识别的准确率并不高,还有很多问题需要解决。而要搞清楚语音识别在哪里出现问题,首先需要了解整个语音交互的流程。从大的方面来说,语音交互可以分成语音识别、语义理解、语音合成三大主线。
在语音识别之前,首先需要做到语音唤醒,唤醒是人机交互的主要触发方式,和跟一个人聊天首先要叫其名字是一个逻辑。机器被唤醒后,就需要知道说话人的方位,才可以定向地拾音,解决噪声、混响、回声带来的影响,同时对说话人进行语音增强。这个声源定位和语音增强主要是用麦克风阵列的相关技术,要保证识别率满足车载交互需求,还要有专门针对远场环境下基于大量数据训练的声学模型,并解决人声检测和断句问题,过滤无效语音,做出快速响应。
语音交互必须解锁的第二项技能是语义理解。相对完美的语义理解,不是指导式的,而是不设定规则或者语法的自然对话的。在语音模型中,一般有专门的模块去判断语音命令里的意图,在语句中寻找关键参数。意图与参数就构成了这条语音命令所要表达的信息。比如说“我要去天安门”和“天安门在哪儿”对于系统来说是一样的语义,“天安门”是参数,“在哪儿”和“要去”是意图。当然,这些模型并不需要人去手动逐个建立,也是通过大量的数据模型去训练机器。
完成语音识别和语义的理解后,机器再通过语音合成,把信息传递给用户,构成一个完整的语音交互回合。虽然语音交互存在已达半个多世纪,车机、后视镜、HUD等硬件都在使用语音交互,但仍然体验不佳,这其中有识别的原因,也有语义理解的原因,还有诸如不能纠错、指令式交互体验乏味、操作复杂等原因。很多交互方案还是触屏+部分语音的方式,不同应用中内置不同的语音方案,造成了操作的烦琐;还有的缺乏语音唤醒,不能真正解放双手。
总体而言,基于终端大规模数据的收集和深度学习技术的出现使语音技术逐渐走向成熟,更好的语音交互需要用到更大体量的数据集以及更好的语音模型。虽然要花费的时间很多,但值得期待的是,语音识别叫醒耳朵只是第一步,当机器慢慢能够听懂人类的话,下一步必定是能够亲口说出“Hello World”,开启真正的语音交互时代。
对于发展前景如此感人的语音交互有哪些优势呢?
信息传递效率高:相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势,利用语音输入普通话时,速度是传统输入方式的 3.21 倍。
空间便捷性:与触控相比,语音交互可以人机相距 3~5 米进行交互,增加了交互的便捷性。
支持组合指令:在需要支持多意图同时传递的场景下,语音交互可以一次性下达多条指令,然后分别执行,比如你可以对着手机说:“播放周杰伦的《说好不哭》并且是免费的。”
使用门槛低:对非文字使用场景友好:语音交互为老人、孩子,以及一些不方便使用文字的人群提供了便利,也在一些不方便使用文字或者手势的场景下,比如:驾驶、玩游戏,为使用者提供了便利。
学习成本低:语音交互与我们平时说话一样,不需要特意学习,大大降低了学习的成本。
传递声学信息:通过声纹可以进行身份判断,并且可以在下达指令的同时进行身份判断,效率更高。同时声音还可以判断性别、年龄层、情绪等信息。
声音传递情感:声音交互可以传递情感、语气,因此在有情感诉求的场景下,语音交互是一个很好的选择。
中天智领是国内领先的智慧交互信息化系统整体解决方案服务商,智能语音交互,让交互“说”出来,无论将来指挥中心增加多少信号,多少业务场景,不再需要后台人员使用电脑操作,只需说出名字,即可快速大屏展示。面对成千上万的监控图像,不再需要眼花缭乱的寻找,只需要说出想看到的监控场景,大屏即可全屏显示。
中天智领采用蓝牙5.0通讯模式实现远距离智能语音交互,在离屏50米的范围内,按下智能激光笔上的语音按钮,说出想要执行的命令,系统将会从海量的信息中匹配与之相对应的操作,例如说出“打开监控”,屏幕上随即会调出预设的监控场景信息。智能语音交互默认支持100个语音指令,满足大部分用户的使用需求,同时可以支持命令扩展,以及特殊命令定制化。
随着语音技术在交互距离、识别效率、语言种类等领域的不断突破,相信语音交互将成为主流,即将开启声控时代。