《表4 话头检测10折交叉验证结果统计》
两份语料话头结构检测的实验结果如图7和表4所示。总的来说,两份语料的话头检测指标F1det数值均在0.9以上,“鱼类百科”的F1det甚至可以达到0.994 5,说明了本文方法的有效性。但同样可以看到,在不同语料上话头检测的结果还是有不小的差异,《围城》语料与“鱼类百科”语料的平均F1det相差7.07%,出现这种差异的一个很大的原因在于数据本身,“鱼类百科”语料中话头结构完整的数据仅有959条,占全部的8.01%,而《围城》语料中话头结构完整的数据比例可以达到51.4%。在数据比例差异如此大的情况下,模型在《围城》语料上的F1det仍能达到0.923 8,进一步表明了本文方法的有效性。此外,值得一提的是,话头结构检测的结果会直接影响最终的准确率。对于话头结构完整的标点句,只要识别出其结构完整便算正确,而对于话头缺失的标点句,还需要识别话头内容,在识别的过程中同样还会存在问题,以下将会讨论模型在话头内容识别中的性能。
图表编号 | XD00202102400 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.05 |
作者 | 张禹尧、蒋玉茹、毛腾、张仰森 |
绘制单位 | 北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所 |
更多格式 | 高清、无水印(增值服务) |