回顾人类发展史,不难看出,随着人的不断进化,从最初通过手掌、肢体使用简单工具、传递简单信息,发展到控制发声并通过耳朵接收,形成了一个以语音为载体的快速信息传递通道和收发闭环,成为人类间最自然、最重要的信息交互手段。声波作为一种音频信号,和视频信号、无线电信号一样是非接触方式的传播,也是人类唯一可以不借助工具就可自由掌控的一种天然“无线”资源。要让机器能够听见,首先要做的事情是我们需要将声波输入到计算机中。
语音交互的原理
语音交互的简单流程是从语音唤醒到语音输入,最后到实现反馈。语音交互带给用户最直观的感受就是和机器进行对话,能获得相应的反馈,最典型的产品有语音搜索,Siri语音助手,语音对话机器人等。在对应的表现层下,每一个表现层需要多重技术来支持。
语音唤醒
首先,需要待机离线唤醒机制通过持续监听技术确保设备能够监听到唤醒词(由开发者定义),开发端需要通用语聊训练一个基线模型,唤醒词录音训练一个命令词模型,唤醒就是拿录音数据计算两者的匹配度,如果唤醒的语音命令跟训练的命令词模型匹配达到阈值,设备或者机器就会被唤醒。
信号采集与处理
设备唤醒后,机器进入监听模式,在Voice input端,由于声源属于最重要的源头,为了让声源最大程度的减小失真,会采用回声消除,降噪处理,声源增强,声源过滤等各种手段保证声源的质量,最经常采用的硬件方案是通过麦克风阵列来保证声源。
ASR
接收到语音命令并进行处理以后,第一个阶段得实现自动语音识别(ASR),语音识别的原理其实主要取决于三个因素,帧、状态、音素。第一步会把声音切成最上面对应的一段一段的帧,若干帧语音会形成一个状态,每三个状态会对应一个音素,而若干个音素会组合成一个单词,就得到了语音识别的结果,结果为输出的一段文本。
而如何实现大量语音的准确理解,这里就需要用到隐马尔可夫模型(HMM)来构建一个状态网络,然后从状态网络中寻找与声音最匹配的路径。这样只需要把结果限定在状态网络中,就能实现识别,而如果要识别任意文本,需要把网络搭建的足够大,包含任意文本的路径。这里就涉及到大量的训练与大量数据的处理,数据越多,准确度越高。
NLU
通过ASR识别出单词或者汉字后,需要进行自然语言理解(NLU),只不过我们当前的技术水平远远还没有达到NLU的水平,只能说实现了自然语言处理(NLP)阶段。现在的NLP主要是建立一个庞大语料库,通过不断的对语法、句法、语义等进行训练分析,用统计学原理和深度学习来实现对自然语义的处理与简单理解。而从现在类似语音助手Siri的NLP水平进化到科幻电影里的仿真机器人的NLU水平,达到能像人类一样来理解语义,需要大量的学习甚至加上各种传感器才能真正让一个机器产生人的思想,感受到人对一个事物或者语言的感觉,从而实现真正的情感交流。
实现语义处理后,就需要结合上下文进行对话管理和语言合成,进行上下文理解和上下文修正,从而实现相对准确的反馈,结合不同的场景与产品,会形成不同的反馈,实现人机之间的语音交互。这就是语音交互的整个流程,不管是我们想通过语音来控制生活家居,用语音和机器进行对话,用搜索引擎进行语音搜索,都要进行这整个流程,而把每一个环节做好成为现在语音市场竞争的关键,准确及时的语音反馈对于用户来说实在太重要。
从功能机时代到智能机时代,人与机器的交互方式一直在变化。尤其是近几年来,语音交互一直是人们探究的热点。
语音交互作为新一代的交互模式,通俗的讲,就是用人类最自然的语言给机器下达指令,达成自己的目的的过程,这一过程包括三个环节:能听、会说、懂你。
总结来说,语音交互具备以下四点优势:
①输入更高效。研究结果表明,语音输入比键盘输入快3倍。如果你从解锁手机到设置闹钟需要两分钟,直接说一句话设置闹钟,可能只需要10秒钟;
②表达更自然。人类是先有语音再有文字,每个人都会说话但有一部分人不会写字,语音交互比界面交互更自然,学习成本更低;
③感官占用更少。一张嘴,将人的双手、眼睛从图形界面交互中解放出来,想象一下当你手握方向盘时,说一句话就直接接听电话、播放音乐,是不是更方便也更安全。腾出来的感官,意味着可以并行处理其他任务,理论上有更高的效率。
④信息容量更大。语音中包含了语气、音量、语调和语速这些特征,交流的双方可以传达大量的信息,特别是情绪的表达,其表达的方式也更带有个人特色和场景特色。当见不着面,听不到声音的时候,人与人之间的真实感就会下降很多。
语音交互主要是输入方式不同导致的,最显著特性就是“解放了双手”——你在使用语音请求时,眼睛和手可以同时忙于其他的事情。
目前来说,未来的主流交互方式是不确定的。但有一点肯定的是,更高效率、更加自然、更加接近于人本能的方向是未来交互的方向就像现在的VR、AR、MR技术,其实也是在模拟人与现实交互的一种过程。
为什么是这样一种趋势呢?是因为人机交互最终是和人的感官进行交互,而人的感官所适应的系统是几百万年来进化当中和自然交互的一个过程。所以人和自然之间的交互是最高效、舒适的。所以现在的人机交互就要尽量模仿人与自然交互的这样一个方式。
中天智领是国内领先的智慧交互信息化系统整体解决方案服务商,通过多年潜心研发,创造出一系列智慧人机交互系统产品,集智慧人机交互产品、智慧人机交互终端、智慧交互平台、智慧交互云于一体,重点研发智能语音、智能指挥台、移动可视化交互、实物交互等多种交互系统。
中天智领采用蓝牙5.0通讯模式实现远距离智能语音交互,在离屏50米的范围内,按下智能激光笔上的语音按钮,说出想要执行的命令,系统将会从海量的信息中匹配与之相对应的操作,例如说出“打开监控”,屏幕上随即会调出预设的监控场景信息。智能语音交互默认支持100个语音指令,满足大部分用户的使用需求,同时可以支持命令扩展,以及特殊命令定制化。
麦克风语音激光笔可以查看外场场景,打开收入数据,打开仓储数据,打开BI主页,打开主屏,查看最新数据等。面对成千上万的监控图像,不再需要眼花缭乱的寻找,只需要说出想看到的监控场景,大屏即可全屏显示。
回顾一下人机交互的发展历程,实际上是对机的不断改造,以解放人的过程。最早期的电脑,键盘是唯一的输入设备,后来有了图形界面 GUI,才有了鼠标。
而语音交互,全程只需要说和听,对身体来说,感官上的体验和占用肯定是更轻了,并且相比起鼠标、键盘、遥控器乃至触屏来说,语音交互会在适合语音交互的情境和任务中成为主流的交互方式。经过多年的探究,语音交互在解放双手和眼睛的同时,也将不断为人们的日常生活与工作提供智能服务。
而热门的Google,Apple和微软等公司,纷纷凭借其代表产品Google now,Siri,小冰等崭露头角,但是现在这些产品都只是实现了简单的语音交互,稍微复杂点的语言就很难有正确的反馈。
而在中国,科大讯飞、百度,云知声、盛大、捷通华声、搜狗语音助手、紫冬口译等系统都采用了最新的语音识别技术,市面上其他相关的产品也直接或间接嵌入了类似的技术。
我们离大数据可视化必将越来越近,而语音是最直接的交互表达,是人工智能的第一步,也是现在科技的瓶颈所在,毕竟我们到目前为止还是没有见过一个完美的产品能实现真正的语音智能。只有随着深度神经网络学习(DNN)等各种技术的不断成熟才能实现真正意义上的大数据可视化。
中天智领作为智慧人机交互的领航者,已将智慧应急指挥中心做的非常完善并且已在国家机关及其它部门得到了广泛的应用,中天智领智慧应急指挥中心拥有多种系统:智慧交互激光遥控系统、AI语音交互系统、智慧交互系统级触控系统、智慧交互手势识别系统、大屏KVM管控系统、云享控系统、智慧交互电子沙盘、联合标绘、实物交互等。
中天智领是国内领先的智慧交互信息化系统整体解决方案服务商,通过多年潜心研发,创造出一系列智慧人机交互系统产品,集智慧人机交互产品、智慧人机交互终端、智慧交互平台、智慧交互云于一体,重点研发出精准远距离激光遥控、光感手触、触摸笔、指挥教鞭、智能指挥台、移动可视化交互、实物交互、智能语音等多种交互系统,支持将传统的LED、DLP、液晶、投影屏幕直接升级为可交互式大屏,不限制屏幕大小,并支持曲面屏、异形屏等特殊形状屏幕升级,最大化的满足用户在不同场景下的使用需求。