《表1 基于三元组损失的声纹模型网络结构》

《表1 基于三元组损失的声纹模型网络结构》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于频域卷积和三元组损失的端到端声纹识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

主干网络利用卷积层和多个残差网络中残差单元的组合[13]堆叠而成,整个网络结构的细节如表1所示。每个残差单元由两个卷积核为3×3,步长为1×1的卷积层构成,其中包含低层输出到高层输入的直接映射,3个残差单元的组合结构称为残差块。当输出通道增加时,为保持整体特征的频域维度不变,添加卷积核为5×5,步长为2×2的独立卷积层。语音中能辨识身份的属性大多在频谱的共振峰和包络中,为能学习到更丰富的频域特征,在主干CNN最后添加频域卷积层,使输出的特征图尺寸在频域上的维度为1,且输出通道数仍保持整体频域维度不变。每个卷积层后都加入批标准化(Batch Normalization,BN)和激活层以加快训练速度,激活函数选择上限值为20的线性整流函数(Rectified Linear Unit,ReLU)[14]: