语音合成类算法是指将一句文本转换成与语言有关的声音信号的过程,其基本原理是将文本拆分成一系列可操作的单元,然后使用机器学习算法学习某种语言模型,最后根据学习的模型生成人类发出的声音。
语音合成类算法主要可分为直接语音合成方法、单元串接合成方法和概率合成方法三种。
直接语音合成方法是直接将文本转换成声音的方法,其基本步骤是:1)获取输入的文字;2)将输入的文字转换成相应的发音;3)将边音转换成数字信号;4)产生时域信号,将输出的语音信号传输至扬声器产生声音。
单元串接合成方法是将文本转换成声音的过程,这种方法需要先将文本处理成一系列的可操作单元,然后从单元库中选择合适的单元进行串接,最后将串接的单元转换成语音信号。一般将单元分为起始单元、转折单元、主体单元、终止单元等,然后根据单元选择规则和单元合成规则,从单元库中取出合适的单元进行串接,如果出现错误则重新选择其他的单元。
概率合成方法是指根据得到的概率模型,根据需要调用模型生成带有完整发音的语音信号的过程。在概率合成方法中,首先根据语料库学习出一个概率模型,模型包括声调、发音特征和音素概率等;然后根据文本内容,使用模型生成指定的声音信号;最后将声音信号转换成可用的语音。
这三种方法都有其优点和缺点,直接语音合成方法的优点是它生成的声音信号更加自然,可根据输入文本调整之前未知的参数;但同时它也有着比较复杂的计算过程、占用更多的存储空间和需要较多的计算资源。单元串接合成方法的优点是生成的声音较为自然,不需要修改调整,而概率合成方法的优点是易于理解,可用于生成各种口语的声音。