《表4 仅单流唇部视频在5个角度最优识别率比较》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于SDBN和BLSTM注意力融合的端到端视听双模态语音识别》
此外,如表4所示,又分别将各个角度单流唇部视觉语音识别中10次运行结果中最优识别率列出,并与该数据库中经典算法作比较,可以看出,本文算法在以0°、30°、60°、90°为拍摄角度录制的唇部视频中,算法识别率均优于经典算法,在45°时接近参考文献[27]的结果,其中正面唇部视频识别率达到95.1%,这表明算法模型在各单流唇部视觉语音识别中的优越性,这也是为视听双模态融合实验打下了很好的基础。本文中并未对音频做特殊处理,例如对原始音频加噪声,而是将重点放在对单流的唇部视觉语音识别方法和视听双模态语音的同步融合识别方法中做突破,通过在这两方面的突破来最大化提升视听信息融合识别的效果。由以上分析可以看出,端到端视听双模态语音融合识别模型具有有效性。
图表编号 | XD00116370800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.20 |
作者 | 王一鸣、陈恳、萨阿卜杜萨拉木·艾海提拉木 |
绘制单位 | 宁波大学信息科学与工程学院、宁波大学信息科学与工程学院、宁波大学信息科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |