《表2 低频词过滤及子串归并效果评价》

《表2 低频词过滤及子串归并效果评价》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《学术文献术语抽取方案比较研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

学术文献语料中词频分布在低频词部分出现长尾现象。一些低频词来源于作者习惯、写作方式或者较少提及的交叉领域的文章,此类候选术语并非领域术语,应当被排除。为了避免大量低频词对术语抽取的不利影响,本文对低频候选术语(这里的低频指文档频率较低)进行排除,并采用实验评估了排除此类候选术语的影响,过滤的阈值由实验确定。表2记录了实验过程中参数的调整对实验结果的影响。过滤掉低频词对准确率有了明显提高,从而证明了大多数低频词是非术语或领域无关词语。低频词占了绝大部分(去除只在一篇文章中出现的词后,候选术语数由180307降为18615),这对于程序运行的效率也有明显地提升作用。