《表5 特征向量对比:面向机器学习的流式文档逻辑结构标注方法研究》

《表5 特征向量对比:面向机器学习的流式文档逻辑结构标注方法研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向机器学习的流式文档逻辑结构标注方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

文献[1]对文档章节结构进行了识别,其数据集中标注了章节、子章节与正文,并提取8种编辑特征组成特征向量。为与文献[1]进行对比,随机选取169篇文档语料,首先按照文献[1]的方法构造数据集1;其次按照本文提出的方法标注相应标签并自动提取16种编辑特征,从中计算并选取信息增益[21]最大的8种特征组成特征向量,构造数据集2。两种数据集的特征向量对比如表5所示。基于上述两种数据集,构建随机森林分类模型,十倍交叉验证的实验结果见表6。实验结果表明,由于本文标注体系中对文档编辑特征提取得较为全面,能够更好地反映不同类别间的差异,从而提升了随机森林分类模型的准确率与召回率。