《表2 不同方法的语音增强结果》
为更直观地比较不同网络模型的语音增强性能,笔者分析了不同网络模型增强后的语音时域波形图和对数功率谱图。图3和图4分别给出了第3号说话人的干净语音和被0dB lepoard噪声污染后的含噪语音,以及经不同方法处理后的时域波形图和语谱图。将图3(c)~(g)分别与图3(a)和图3(b)对比,经过3种融入多头自注意力机制的方法增强的语音的波形失真明显小于经过两种基线方法增强的语音的波形失真。对比图3(a)中干净语音的波形图,图3(e)~(g)表明经全自注意力语音增强方法增强得到的波形图与干净语音的波形图最为接近。对比图4中各分图,3种融入多头自注意力机制的语音增强方法相较于两种基线方法,能够更有效地处理含噪语音中的噪声部分。实验充分证明,经过融入多头注意力机制的语音增强方法增强的语音相较于经过两种基线方法增强的语音更接近原始干净语音。
图表编号 | XD00140390700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.02.20 |
作者 | 常新旭、张杨、杨林、寇金桥、王昕、徐冬冬 |
绘制单位 | 北京计算机技术及应用研究所、北京计算机技术及应用研究所、北京计算机技术及应用研究所、北京计算机技术及应用研究所、北京计算机技术及应用研究所、北京计算机技术及应用研究所 |
更多格式 | 高清、无水印(增值服务) |