《表2 不同语种识别系统性能对比》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于卷积神经网络的语种识别系统》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

为了验证本文提出的端对端语种识别系统的有效性，将该系统与3.2节的系统2和系统3进行性能对比。LID-net第6层卷积层的通道数由32变化到512。所有系统的性能由EER（%）和Cavg（%）进行评价，如表2所示。其中每个时长中性能最优系统的数值用粗体表示。可以发现，LID-net在不同时长上的指标均好于两个基线系统DBF-TV及DBF-TV-Ferrer。总体来说，语音的时长越短，系统性能提升的幅度越大。相较于DBF-TV系统，LID-net系统的EER在30 s，10 s和3 s时长上分别相对下降了1.35%，12.79%和29.84%；Cavg在3种时长上分别相对下降了32.73%，31.77%和32.49%。这是因为经过CNN的区分性建模，不同语种的得分分布更具有区分性，从而实现更优的系统性能。因此LID-net这种端对端模型可以很好地对语种信息进行建模，尤其在短时语音上比生成性模型有更大优势。实验结果表明，LID-net的第6个卷积层通道数需要合理设置，通道数太小会对系统性能造成影响，而太大则会导致过拟合。

图表编号	XD0040449700 严禁用于非法目的
绘制时间	2019.03.01
作者	金马、宋彦、戴礼荣
绘制单位	中国科学技术大学语音及语言信息处理国家工程实验室、中国科学技术大学语音及语言信息处理国家工程实验室、中国科学技术大学语音及语言信息处理国家工程实验室
更多格式	高清、无水印（增值服务）