《表5 话头内容识别10折交叉验证结果统计》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于语言模型的中文话头自足句识别方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

图8和表5为话头内容识别10折交叉验证的结果。整体的结果是相对稳定的，两份语料上的10折交叉验证的结果并无太大波动。可以看到，在“鱼类百科”语料中平均F1dis的数值为0.911，而《围城》语料上，平均F1dis仅有0.734 8，两者的结果相差甚大，将近18%，而两个语料上话头检测的结果相差是7.07%。为了准确分析话头内容识别的效果，本文设计了一组追加实验。在追加实验中，只使用标点句ca+1话头缺失的样本，在两份语料上分别训练模型，同样使用10折交叉验证，实验结果如表6所示。可以看到，相较于使用完整的数据，仅使用话头缺失语料的平均F1dis结果均有一定的提升，“鱼类百科”提升了0.003 3，而《围城》提升了0.045 4。这说明数据中不缺失话头的标点句的比例会影响模型的预测结果，相对而言，“鱼类百科”语料中话头自足的标点句所占比例很小，影响也较小，因此本文提出的话头检测和话头识别两个指标相比，ACC单一指标更能精确地衡量模型的性能。

图表编号	XD00202103000 严禁用于非法目的
绘制时间	2021.02.05
作者	张禹尧、蒋玉茹、毛腾、张仰森
绘制单位	北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所、北京信息科技大学智能信息处理研究所
更多格式	高清、无水印（增值服务）