《表2 分割算法在14.4 h训练集上的性能》
注:Forcedalignment存活率=采用原始剧本标注对语音段进行Forcedalignment存活下来的数据量/语音段的总长度。
表1和表2从两种不同的角度对本文所提的语音分割算法进行性能对比。表1给出了分割算法在1.4 h测试集上的性能。作为比较,表1同时给出了准确的人工标注结果(比对时对应到每段音乐、背景噪声及语音段的起始和结束时间边界,并不是单纯的数据量统计)。可见,半监督自动语音分割算法明显优于基于KL距离、GMM和音素识别3种基础算法上的语音分割基线系统。由于“神秘博士”剧集中存在大量混合着音乐和强背景噪声的语音段,因而传统分割算法很难将其与纯语音或纯背景噪声区分开来,而本文算法由于利用了原始标注文本信息来辅助分割,从而体现出较基线系统的优势。但与人工分割标准答案相比,本文所提出的半监督自动语音分割算法仍然丢弃了6.84%的语音段(0.08 h),主要是由于某些边界模糊且背景环境复杂的语音段进行强制对齐原始文本标注时失败所致,这也是本文所提算法仍需改进的地方。
图表编号 | XD0040448700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.03.01 |
作者 | 龙艳花、茅红伟、叶宏 |
绘制单位 | 上海师范大学信息与机电工程学院、上海师范大学信息与机电工程学院、上海师范大学信息与机电工程学院 |
更多格式 | 高清、无水印(增值服务) |