《表3 R-AP=0文档的抽取结果示例》

《表3 R-AP=0文档的抽取结果示例》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向中文学术文本的单文档关键短语抽取》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为便于观察算法表现较差时的抽取情况,本文挑选了R-AP=0时的5篇文档。输出结果如表3所示,算法所抽取的关键短语与人工标记结果不一致的情况,有多种原因:一是本文算法仅考虑了单个词语和双词词语,尚未处理三个及以上词语构成关键短语的情况,如将“电子文件管理”识别成“电子文件”和“文件管理”两个短语;二是本文算法属于无监督、单文档抽取,未考虑词语在文档集中所蕴含的统计信息,如“信息搜寻行为”,虽然在单一文档中构成短语的特性不明显,但在整个数据集中,其短语搭配能力会更为明显;三是算法抽取的部分结果和人工标记虽有不同,但作为表达核心概念的关键短语具有一定合理性,对人工标记结果起到了补充作用。此外,自动分词模块,尤其是学术文本中的书名号、中英文混合词语的分词处理,对算法抽取结果也有一定影响。