人机交互是指人与计算机的信息交换,包括计算机通过输出或显示设备给人提供信息,以及人通过输入设备向计算机输入有关信息。
人机交互的目的就是讨论如何使设计的计算机能够帮助人们更加安全可靠,更加有效率地完成所要完成的任务。从以上概念可以看出,人机交互是指用户和机器之间相互交换信息。但尽管计算机的功能现在变的十分强大,用途也越来越广,但归根到底它仍是人类的工具,不能在没有人控制的情况下独立完成任务,因此它同样受到人的支配、控制。
人机语音交互的发展阶段包括以下几个方面:
语音识别
语音识别是人机语音交互的第一步,主要作用是将用户的语音转换为文字,以便机器的结构化处理。
语音为模拟信号,需经过麦克风等设备采样处理后成为机器可处理的数字信号;然后经过特征提取,将信号从时域转换到频域;再利用提取到的特征向量,经过模式匹配最终转化为文本。其中模式匹配环节的声学模型和语言模型决定着最
终识别的效果,声学模型和语言模型均需要利用标注之后的数据进行训练得到,目前多采用监督学习算法实现,优点是准确率高,缺点是需要人工介入且工作量大。
在实际应用中,除了关注所采用的机器学习算法和软件处理外,还需要重视语音采集环节,尤其远场交互场景(例如智能音响)。语音采集是语音识别的前置条件,如果采集的语音质量不高,即使算力再充足、算法再精妙、数据量再大质量再高,最终的识别准确率也不理想。所以在一些场景下需要通过提升麦克风降噪效果、采用麦克风阵列等方式提升语音采集质量。
深度学习算法的应用,使语音识别成为人工智能最先突破的领域之一。当前,市场主流厂商的语音识别准确率超过了人类水平,手机、电脑、降噪麦克风(阵列)等场景优化后识别准确率高于95%,电话等场景优化后识别准确率高于85%,其他语音优化后识别准确率高于80%。
自然语言理解
自然语言理解是基于自然语言处理的相关技术实现的,两者之间的关系可表现为:
语音识别后的文本,经过分词、词性标注、命名实体识别、依存句法分析等处理,并结合情感分析等结果,对用户意图进行识别。
当前,自然语言理解是人机语音交互中较弱的一环,暂时还无法应用到全场景交互中,但是在垂直领域(金融、医疗、教育等)可用,并且可解决部分客服、销售业务。在闲聊场景中,目前智能音响的应用比较深入,多个厂商的智能音响可支持百科问答、导购交互、日常聊天等功能。
对话管理
对话管理接收来自于自然语言理解的语义结果,并结合当前的语义环境,基于预设的对话状态,决策接下来的动作,并对语义环境进行更新,然后循环往复,直到结束交互。预设的对话状态即对话规则,例如对话流程、动作判断等多种形式的结合。
由于语音交互的复杂性和随机性,导致对话管理难度很大。具体表现为预设对话状态的主观性、多轮对话的容错性、偏离对话状态的合理化处理、多场景切换与恢复等。和自然语言理解类似,当前对话管理在垂直领域和闲聊的部分场景应用较好,但是要应用到全场景交互中,挑战同样非常大。
自然语言生成
自然语言生成可视作语言理解的逆过程,将向用户传达的概念、知识、数据、意图等信息转化为语言,自然语言生成一般包括6个步骤。
内容确定作用是决定哪些信息需包含在正在构建的文本中,文本结构作用是决定合理的组织文本顺序,句子聚合作用是决定在单个句子中呈现的信息,语法化作用是找到合适的单词和短语来表达信息,参考表达式生成作用是识别需表达内容的领域并使用该领域词汇,语言实现作用是将所有的单词和短语组成格式良好的句子。
当前,人机语音交互中还未实现完全自动化的自然语言生成,在实际应用中多采用预先设计的文本模板来生成文本输出,例如在查询银行卡余额时,预设文本“您查询的银行卡余额为【金额】元”。
语音合成
语音合成是人机语音交互的出口,目的是将自然语言生成后的文本或预设文本转换为语音,播报给用户。合成语音的自然度直接关系到交互体验。
语音合成的原理比较复杂,但是目前的技术和应用都很成熟。市场主流厂商中英文的语音合成效果超过了人类水平,中文自然度MOS值可达到4.5左右,英文自然度MOS值可达到4.2左右。
在实际使用过程中,为了达到比较好的效果,也采用人工录音和语音合成结合的方式,预设的固定文本部分采用人工录音方式,动态变化部分采用语音合成方式。例如上述的“您查询的银行卡余额为【余额】元”,其中动态变化的“【余额】”采用语音合成方式,其余部分采用人工录音方式。
其他技术
除了以上技术,还有一些技术也广泛应用于人机语音交互中,例如声纹识别、知识图谱等。
声纹识别是一种根据说话人语音波形识别说话人身份的生物识别技术。相比于人脸识别、虹膜识别、指纹识别等技术,声纹识别可以进行远程身份识别,用户不必和生物特征采集设备接触,即可完成识别过程。声纹识别的应用可分为身份确认和身份辨识,身份确认是指根据一段语音确认是否为目标用户,是1:1比对的过程;身份辨识是指根据一段语音从一个集合中选取最匹配的用户,是1:N判别的过程。在智能音响中,可采用声纹识别进行用户身份识别,针对不同用户提供个性化服务。
知识图谱是一种描述知识实体、实体与实体之间关联的结构化知识管理技术。知识图谱相比于传统的知识管理技术,能够将零散的知识有效聚合起来,方便检索、提取、调用、管理。知识图谱在人机语音交互中的应用,可以有效提升知识检索、知识生成的速度和准确度,如果结合自然语言生成技术,提供给用户的结果也更接近于人类表达。
中天智领是国内领先的智慧交互信息化系统整体解决方案服务商,通过多年潜心研发,创造出一系列智慧人机交互系统产品,集智慧人机交互产品、智慧人机交互终端、智慧交互平台、智慧交互云于一体,重点研发出精准远距离激光遥控、光感手触、触摸笔、指挥教鞭、智能指挥台、移动可视化交互、实物交互、智能语音等多种交互系统。
中天智领智能语音交互,让交互“说”出来无论将来指挥中心增加多少信号,多少业务场景,不再需要后台人员使用电脑操作,只需说出名字,即可快速大屏展示。面对成千上万的监控图像,不再需要眼花缭乱的寻找,只需要说出想看到的监控场景,大屏即可全屏显示。中天智领智能语音交互系统将设备连接到网络的能力,与现代语音识别服务相结合,实现了强大的新用户界面。一种以用户内心意图为中心
的人机交互方式,以语音命令为核心的智能人机交互体验。系统用人类最自然的语言(开口说话)给设备下达指令,达成自己的目的。用户按
下遥控器上的语音键,下达清晰和直接的单向预设语音指令,传输到网络中的语音识别引擎,达到对应的控制效果。独有的语音压缩算法,
将语音压缩以实现抗干扰及较远距离的语音实时传输,30米范围内精准遥控,360°无死角声源定向。对话模型本地运行,数据本地存储和处
理,保障数据的私密性。