《表1 语种识别卷积神经网络参数配置表》

《表1 语种识别卷积神经网络参数配置表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于卷积神经网络的语种识别系统》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

网络的参数配置如表1所示。其中输入或卷积核尺寸1@50×N表示输入或卷积核的高度是50,宽度是N,通道数是1。网络使用了两次扩帧处理。第1次在DNN层1扩帧,使用了固定的10-1-10扩帧窗,即包括当前帧及其前后各扩展的10帧,共计21帧来表示当前帧的语音信号,这在基于DNN的语音信号处理中非常常见。经过DNN层后,可以得到语种相关的50维BN特征;第2次在卷积层1扩帧,扩帧数由卷积核的大小控制,例如卷积核尺寸为1@50×21,表示使用10-1-10的扩帧窗。在池化层,语音帧级信息被直接池化到段级的语音段表示,由于需要从不定长的语音特征池化到固定长度的语音段表示,网络使用了文献[23]提出的空间金字塔池化层(Spatial pyramid pooling,SPP)来代替传统的池化层。经过SPP层,K@1×N的帧级特征被池化到固定长度的语音段级矢量,从而可以使用全连接层直接进行分类。