[全部]AI智能语音合成技术为何能脱颖而出
2020-06-18

语音合成是通过机械的、电子的方法产生人造语音的技术。通俗点来说,语音合成就是让机器模仿人类说话。即输入一段文字,最终输出一段语音。

语音合成,是将文字转化为语音的过程,类比于人类的嘴巴。语音合成技术目前主要应用在地图导航、语音助手、教育、娱乐等软件应用,还有在智能音箱、家电、机器人等硬件设备等领域。

语音合成系统通常包含前端和后端两个模块。前端模块主要是对输入文本进行分析,提取后端模块所需要的语言学信息。对中文合成系统来说,前端模块一般包含文本正则化、分词、词性预测、多音字消歧、韵律预测等子模块。后端模块根据前端分析结果,通过一定的方法生成语音波形。后端模块一般分为基于统计参数建模的语音合成,以及基于单元挑选和波形拼接的语音合成两条技术主线。

现阶段的语音合成系统,根据所采用的方法和框架不同,主要可以分为三种:1. 参数语音合成系统。2. 拼接语音合成系统。3. 基于波形的统计合成系统 。其中参数语音合成系统、拼接语音合成系统是现阶段各大公司线上主流的合成系统,基于波形的统计合成系统的方法还在研究阶段,是现阶段研究的热门。

1. 参数语音合成系统的特点是,在语音分析阶段,需要根据语音生成的特点,将语音波形通过声码器转换成频谱、基频、时长等语音或者韵律参数。在建模阶段对语音参数进行建模,并且在语音合成阶段,通过声码器从预测出来的语音参数还原出时域语音信号。参数语音合成系统的优势在于模型大小较小,模型参数调整方便,而且合成语音比较稳定。

2、拼接语音合成系统的特点是,不会对原始录音进行参数化,而会将原始录音剪切成一个一个基本单元存储下来。在合成过程中,通过一些算法或者模型计算每个单元的目标代价和连接代价,最后通过Viterbi算法并且通过PSOLA或者WSOLA等信号处理的方法“拼接”出合成语音。因此,拼接语音合成的优势在于,音质好,不受语音单元参数化的音质损失。但是在数据库小的情况下,由于有时挑选不到合适的语音单元,导致合成语音会有韵律、发音不够稳定,而且需要的存储空间大。

3. WaveNet 波形统计语音合成主要的单元是卷积神经网络。这种方法的特点是不会对语音信号进行参数化,而是用神经网络直接在时域预测合成语音波形的每一个采样点。优势是音质比参数合成系统好,略差于拼接合成,但是较拼接合成系统更稳定。缺点在于,由于需要预测每一个采样点,需要很大的运算量,合成时间慢。

众所周知,交流和交互的方式有很多种,比如语言、文字、图像、动作等等。在人机交互方面,从上世纪70年代开始,人类便在不断探索最便捷、最自然的交流方式,不管是计算机时代的键盘打字,还是智能手机时代的触摸屏,都是对应时代潮流的创新式探索。而如今,显然轮到了AI语音技术。

据了解,语音交互对人机语音通信的作用主要依赖两方面技术,其一是语音识别技术,其二便是语音合成技术。和语音识别相比,目前语音合成的技术相对来说要成熟一些,并已开始向产业化方向成功迈进,大规模应用指日可待。

在此过程中,以科大讯飞、阿里、百度、搜狗、谷歌等为代表的一大批先进科技企业,都在助推AI语音合成技术的稳步突破。

比如2018年,谷歌便隆重推出了一款AI语音合成器,作为其机器学习云工具套件的一部分,该合成器能满足任何开发人员和企业的语音合成需求。此外,新型的AI语音合成技术,不仅定制成本降低了10倍,同时能够让企业与个人定制其专属“AI声音”。因此,AI智能语音合成技术脱颖而出。

总的来说,在各大科技巨头的加速布局与持续突破下,目前AI语音合成在技术上已经取得了不小成果,商业化应用探索也开始逐步启动,发展速度令人咋舌。未来,随着应用的日渐成熟,产品大规模进入市场,AI语音技术走进人们的日常生产和生活指日可待。

中天智领在AI语音技术方面也有卓越的发展。中天智领采用蓝牙5.0通讯模式实现远距离智能语音交互,在离屏50米的范围内,按下智能激光笔上的语音按钮,说出想要执行的命令,系统将会从海量的信息中匹配与之相对应的操作,例如说出“打开监控”,屏幕上随即会调出预设的监控场景信息。智能语音交互默认支持100个语音指令,满足大部分用户的使用需求,同时可以支持命令扩展,以及特殊命令定制化。