《表6 话头内容识别10折交叉验证结果统计》

《表6 话头内容识别10折交叉验证结果统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于语言模型的中文话头自足句识别方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

图8和表5为话头内容识别10折交叉验证的结果。整体的结果是相对稳定的,两份语料上的10折交叉验证的结果并无太大波动。可以看到,在“鱼类百科”语料中平均F1dis的数值为0.911,而《围城》语料上,平均F1dis仅有0.734 8,两者的结果相差甚大,将近18%,而两个语料上话头检测的结果相差是7.07%。为了准确分析话头内容识别的效果,本文设计了一组追加实验。在追加实验中,只使用标点句ca+1话头缺失的样本,在两份语料上分别训练模型,同样使用10折交叉验证,实验结果如表6所示。可以看到,相较于使用完整的数据,仅使用话头缺失语料的平均F1dis结果均有一定的提升,“鱼类百科”提升了0.003 3,而《围城》提升了0.045 4。这说明数据中不缺失话头的标点句的比例会影响模型的预测结果,相对而言,“鱼类百科”语料中话头自足的标点句所占比例很小,影响也较小,因此本文提出的话头检测和话头识别两个指标相比,ACC单一指标更能精确地衡量模型的性能。