《表1 数据增强对语音情感识别率的影响》
由表1可知,实验一采用不增强数据方式训练语音情感识别网络,识别率为90.47%。实验二和实验三所使用的数据增强方法使得情感识别准确度有所下降,这是因为随机转动,随机偏移改变了语谱图的时序结构,导致丢失了很多情感时频相关性信息,使得准确度下降。实验四和实验五所使用的数据增强方法使得情感识别准确度有略微提高,这是由于随机缩放和随机剪切保持了语谱图中的时频两域信息的相关性,但是产生的增强数据缺少样本多样性,导致模型辨别能力没有大幅度提高。而实验六的准确度相比传统方法有了很大的提高,这是因为WGAN使用语谱图进行训练时,不是简单的对语谱图进行拟合,而是通过G和D的对抗训练对语谱图进行特征学习,训练完成后,G可以生成和原始图像具有高相似度并且多样性丰富的样本图像,使得模型识别能力有了显著提高。
图表编号 | XD00206701700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.12.16 |
作者 | 高英宁、崔艳荣、孙存威 |
绘制单位 | 长江大学计算机科学学院、长江大学计算机科学学院、电子科技大学计算机科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |