[全部]解剖语音交互的层级与未来发展趋势
2019-08-19

语音交互的背景:


语音交互分为四个阶段,现在语音交互还处在L1阶段,能以极高的准确率,在典型的环境下响应用户的语音输入,这一阶段的目的是通过便利性树立语音交互的习惯。L3阶段基本就能实现电影中所展示的语音助手。



我们可以这样定义语音交互的L1阶段:


能以极高的准确率,在典型的环境下响应用户的语音输入。极高的准确率最低应该在90%+。这时承载语音交互的设备主要负责功能性的提示与反馈。

当前所有与语音相关的公司,事实上都是在达成L1的路上。L1的出口为语音交互习惯彻底树立,人们面对每款设备的时候会首先想到用语音操作,而不是遥控器或者屏幕。

在L1阶段语音交互更像是自动化程度、精准程度更高的搜索,但搜索的范围扩大了。不单是局限于已有的数字内容,也扩展到家电、视频通话等正常搜索不会覆盖的领域。

我们可以这样定义L2阶段:

能以极高的准确率识别出交互的当事人和环境,然后进行个性化的交互。这时承载语音交互的设备通过摄像头等传感器能够实时进行感知,可以进行适当移动,初步拟人。

L2阶段体现的是个性化,不再是千人一面。语音交互可以定制出性格,而这种性格很可能确实满足某个人的心理期待。

在L2阶段,语音交互会打破工具的边界,尝试走入过去重来没被搜索等介入的领域,比如排遣寂寞。现在的各种APP是按照领域来切分的,而在L2阶段APP的边界会被打破,信息的输入是按照人来切分的。也就是说不再有BAT头条、美团等等,而只是有张三的语音交互助理,李四的语音交互助理。

我们可以这样定义L3阶段:

只要有数据,那语音交互系统的能力是可以无边界扩展的。交互设备可以进行拟人化输出。

L3阶段体现的是后端内容扩展的无边界特性,不再是有多少智能就有多少人工。以及拟人化输出,拟人化输出包括移动,说话的语调、风格、姿态等。

只要有一个人充分的数据描述,那就可以立刻模拟这个人出来,然后给他赋予一个真实的身体。在L3阶段,语音交互及其载体会是社会生活 ,甚至家庭的一部分。

本质上从L1-L3体现的是数字化程度的不断加深,智能程度不断加深,同时数字和智能又按照自己的理想形态进行物化的过程。


语音交互的终极目标:



语音交互的便利程度正好与人工智能的发展程度成正比,智能程度越高语音交互的等级也就越高,所以其终极形态与人工智能的终极形态类似。

1、当你输入数据给它后,它能够根据输入数据表现出不同的个性。

2、在数据的处理上它近乎是全能的,只受个人权限的限制。

3、如果真的赋予实体,那它可以感知周围环境并作出与人类似但很多方面会更优秀的反应。

今天的智能音箱和未来相对终极的语音交互方式以及设备相比,其差距要远大于286电脑和今天的Pad的差距。


一旦发展成上面这样的程度,那语音交互就会彻底的打开边界,而不只是我们使用数据的一种方式。甚至会成为生活的必须品。我们不会对iphone产生依恋,但语音交互则会。当前之所以它能够做的还不多,主要是层级还不够。

未来发展趋势:


现在与语音交互相关的公司核心在做的就是L1阶段的事。这个时候虽然在人工智能的大趋势里面,但本质上智能并没那么关键,关键的是便利以及能输出的内容。这两者会推动树立语音交互这种习惯。


语音识别是目前应用最成熟的人机交互方式,其应用已经完成了向智能硬件以及机器人上延伸。功能主要是使用声音命令指挥你的电脑,实现离开键盘鼠标来实现人机交互或使用特定规范的词语句来激发机器人进入或切换语音区来高效准确的获取信息。


中天智领是国内领先的“智慧交互信息化系统整体解决方案服务商”,致力于“人机交互技术7年,最核心的内容就是交互,公司在“智慧人机交互与信息化领域”已经成为国内的领创品牌,拥有完全自主产权及发明专利池近30项,以 “智慧交互”为核心竞争力,一直致力于为政府、军队、武警、公安、轨道交通等重要部门,提供卓越的指挥中心智慧交互解决方案。


中天智领独特的智能AI语音交互,让交互“说”出来,无论将来指挥中心增加多少信号,多少业务场景,不再需要后台人员使用电脑操作,只需说出指令,大屏即可快速做出反应。革新了传统指挥交互方式,研发人机交互新应用,获得行业巨大的反响。