《表1 合成音频的MOS值》
注:Integration代表融合框架;T2代表Tacotron2框架;C代表字符嵌入;P代表音素嵌入.
在MOS评测方面,邀请了20位厦门地区人士,其中男性10名,女性10名.对每个系统100句共400句测试语句进行主观打分.根据合成音频得到的MOS值如表1所示.综上所述,在加入位置敏感注意力和停止令牌这两个模块的融合框架下,采用字符嵌入方式和16kHz采样率时,合成音频达到了3.81的MOS值.当采样率增加到44.1kHz,MOS值增加到4.08,说明增加采样率可以提高合成效果.当采样率16kHZ,采用字符嵌入方式的Tacotron2框架时,MOS值也能达到4.05,说明相对于Tacotron框架,Tacotron2框架在编码器和解码器上的结构调整有一定的优化作用.因此本文最终选用Tacotron2作为闽南语的语音合成系统.
图表编号 | XD00198337800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.28 |
作者 | 颜世江、陈越、颜婉玲、许彬彬、李琳、洪青阳 |
绘制单位 | 厦门大学信息学院、厦门大学信息学院、厦门大学信息学院、厦门大学人文学院、厦门大学电子与科学技术学院、厦门大学信息学院 |
更多格式 | 高清、无水印(增值服务) |