《表6 各方法术语抽取结果对比(统计学方法展示排序前10的结果,CRF及Bi-LSTM+CRF方法展示未出现于训练语料中的任意10个结果)》

《表6 各方法术语抽取结果对比(统计学方法展示排序前10的结果,CRF及Bi-LSTM+CRF方法展示未出现于训练语料中的任意10个结果)》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《学术文献术语抽取方案比较研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在统计学方法使用前采用语言学模板提取候选术语,相比采用N-gram模型能够有效地提升统计学术语抽取效率。实验发现一些低频词性模板是噪声模板(例如错误的分词引入的词性组合、关键词“A和B”等非术语引入的词性组合等),仅采用高频词性模板能够提升抽取效率。利用词性组合在集合中占有的比重来近似模型权重,能有效地提升统计方法对一元术语抽取的效率。移除高频词、低频候选术语以及子串归并能够有效地提升TF-IDF、KLI等方法的效果;然而对于C-value、KLP等依赖于父串、子串信息的方法有不利影响,因为删除高频、低频和子串信息后,这些方法计算出的结果不能体现真实排序。统计学方法均是基于词频的方法,因此对于抽取低频术语效果不佳。CRF方法在抽取低频术语时有较好的表现。考虑词频、词长、词性组成、词性构成比重、父串和子串信息、上下文词信息、引入外部语料等均有利于术语的抽取。针对统计学方法去除每一种方法结果中的异常大或异常小的数值,再对各结果进行标准化,最后根据每一种方法的效率来分配权重求综合值,这种方法可以弥补单一方法考虑信息不全和极端值的问题。虽然基于机器学习的方法(CRF、Bi-LSTM+CRF)抽取术语测评结果的各项指标中均要高于统计学方法,但是统计学方法依然是有一定意义的。从新词抽取的结果上可以看出(见表6),统计学方法可以有效地发现领域中的新词而无需标注语料。