《表1 CNN模型参数:基于MFCC和CNN的音频相似度判别研究》
一维卷积神经网络包括四个一维卷积层、三个最大池化层、两个随机失活层、两个全连接层,总共包含40 514个训练参数。加入随机失活层的目的是提升模型在测试集上的准确率,防止过拟合。随机失活层在模型训练过程中,通过随机失活层的输出值使模型不会过分依赖某一节点的特征,并起到压缩权重的作用。除了最后一层全连接层,其余卷积层与全连接层都采用线性修正单元作为激活函数,最后一层采用归一化指数函数作为激活函数,将音频相似度的判别问题转变为一个二分类问题,两个输出神经元分别代表两段音频的相似概率与不相似概率,两者之和为1。CNN模型的具体参数见表1。模型每一层的参数通过训练样本得到。
图表编号 | XD0068250600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.04.20 |
作者 | 聂昂、刘树林、杨洪柏、肖青峰 |
绘制单位 | 上海大学机电工程与自动化学院、上海大学机电工程与自动化学院、上海大学机电工程与自动化学院、上海开放大学、上海大学机电工程与自动化学院 |
更多格式 | 高清、无水印(增值服务) |