[全部]浅析语音合成技术
2020-01-13

语音,在人类的发展过程中,起到了巨大的作用。语音是语言的外部形式,是最直接地记录人的思维活动的符号体系,也是人类赖以生存发展和从事各种社会活动最基本、最重要的交流方式之一。而让机器开口说话,则是人类千百年来的梦想。语音合成是人类不断探索、实现这一梦想的科学实践,也是受到这一梦想不断推动、不断提升的技术领域。

语音合成是将文本转化为语音技术。语音合成技术的应用场景非常广泛,在语音助理里面的Apple Siri就用到了语音合成技术,语音合成是语音助理的重要组成部分;智能音响、地图导航、新闻播报、智能客服、呼叫中心等也都用到了语音合成技术。

语音合成的研究领域

一、最主要的是文字到语音;

二、个性化语音合成。个性化语音合成就是用特定说话人的音色来进行语音合成;

三、说话人转换。原说话人的声音经过说话人转换变成了目标说话人的声音。

四、歌唱输入。它的输入是歌词,输出是我们听唱的一个效果。

语音合成的研究历史,可以追溯到十八到十九世纪,真正走向使用是二十世纪末,基于统计参数的语音合成。2016年4月,基于拼接的语音合成系统上线,达到了85%以上的智能接近程度,2016年10月上线了基于大规模数据和深度神经网络的发音消息模型,2016年12月上线了基于深度神经网络的韵律模型,2017年12月上线了全深度神经网络的语音合成技术解决方案,2018年11月上线了KAN-TTS,率先推出了下一代中文TTS技术,达成了95%以上的真人接近程度,2019年1月公有云上线16个voice,包含众多基于下一代技术的voice,提供用户多种选择。

语音合成技术的流程

一是传统的语音合成,包括语音合成的前端和语音合成的后端。语音合成前端主要是文本分析器,它的输入是文本,输出是包含语音学信息的音素序列,语音合成后端输入是音素序列,输出是语音。它的优点:平滑、稳定、效率高;缺点是音质不高、韵律平淡。

文本处理能力不断增强:人类在朗读文本时,实际上是有一个理解的过程。要想让机器也能较好地朗读,这个理解过程必不可少。通过利用海量的文本数据和统计模型技术,合成系统中文本处理的水平已经可以满足大多数场景下的商业应用要求。更进一步地,自然语言理解技术,还可以用于预测句子的焦点、情绪、语气语调等,但由于这部分受上下文的影响很大,而这类数据又相对较少,所以目前这部分情感相关的技术还不够成熟。

二是端到端语音合成,主要包含了端到端的模型,它的输入是文本,输出是合成语音。它的优点:不需要中间特征,时长模型,联合优化,韵律自然;缺点是效果不稳定,产品化难度大。

近年来,随着人工智能概念的推广,语音交互成为了一个热点,智能助手、智能客服等应用层出不穷。语音交互中,主要有三个关键技术,语音识别、语音合成和语义理解,语音合成在其中的作用显而易见。

语音合成技术,已经成功应用在很多领域,包括语音导航、信息播报等。对于语音合成的应用前景,中天智领有着自己的看法。因为中天智领既是智慧交互信息化系统整体解决方案服务商,同时也是语音合成整体解决方案提供商,所以对于语音合成的应用前景,也做过很多思考。目前语音合成的声音,从合成效果上,已经可以满足大多数用户的需求。

中 天智领拥有一套独立的智慧语音交互系统。 将智慧语音与大数据完美的结合到了一起,应用到了智慧应急指挥中心,可以对屏幕进行控制,发出指令: 例如打开液晶4K、投影4K、可视化、实时监控、指挥中心、大数据、联合主屏、联合标绘、应急指挥、电子沙盘、实物交互等。 指令发出,大屏将在0.3秒内迅速做出反应,切换到相应场景。 语音交互适用于部队作战指挥中心、110、120等应急指挥中心以及其它行业,应用范围广泛。

总之,随着语音合成技术的快速发展,所生成的语音会越来越自然生动,也会越来越有情感表现力。中天智领坚信,技术的进步,会不断冲破原有的障碍,满足越来越多的用户需求,使得更好的应用不断涌现,实现用声音改变生活的美好愿景!

中天智领是国内领先的“智慧交互信息化系统整体解决方案服务商”,致力于智慧交互业务模式化,最核心的内容就是交互,中天智领拥有一套独立的智慧电子沙盘交互系统,适用于各个领域,公司在“智慧人机交互与信息化领域”已经成为国内的领创品牌,拥有完全自主产权及发明专利池近30项,以 “智慧交互”为核心竞争力,一直致力于为政府、军队、武警、公安、轨道交通等重要部门,提供卓越的指挥中心智慧交互解决方案。创新的推出 “显控平台+指挥中心+智慧云交互”三大系统,是集智慧人机交互、智能显示、指挥调度、数据分析、深度学习等功能于一体的应用平台,革新了传统指挥交互方式,研发人机交互新应用,获得行业巨大的反响,同时在光学传感器方面也独树一帜,拥有领先的技术。