《表1 合成音频的MOS值》

《表1 合成音频的MOS值》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《端到端闽南语合成系统的设计与实现》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:Integration代表融合框架;T2代表Tacotron2框架;C代表字符嵌入;P代表音素嵌入.

在MOS评测方面,邀请了20位厦门地区人士,其中男性10名,女性10名.对每个系统100句共400句测试语句进行主观打分.根据合成音频得到的MOS值如表1所示.综上所述,在加入位置敏感注意力和停止令牌这两个模块的融合框架下,采用字符嵌入方式和16kHz采样率时,合成音频达到了3.81的MOS值.当采样率增加到44.1kHz,MOS值增加到4.08,说明增加采样率可以提高合成效果.当采样率16kHZ,采用字符嵌入方式的Tacotron2框架时,MOS值也能达到4.05,说明相对于Tacotron框架,Tacotron2框架在编码器和解码器上的结构调整有一定的优化作用.因此本文最终选用Tacotron2作为闽南语的语音合成系统.