《表2 低频词过滤及子串归并效果评价》
学术文献语料中词频分布在低频词部分出现长尾现象。一些低频词来源于作者习惯、写作方式或者较少提及的交叉领域的文章,此类候选术语并非领域术语,应当被排除。为了避免大量低频词对术语抽取的不利影响,本文对低频候选术语(这里的低频指文档频率较低)进行排除,并采用实验评估了排除此类候选术语的影响,过滤的阈值由实验确定。表2记录了实验过程中参数的调整对实验结果的影响。过滤掉低频词对准确率有了明显提高,从而证明了大多数低频词是非术语或领域无关词语。低频词占了绝大部分(去除只在一篇文章中出现的词后,候选术语数由180307降为18615),这对于程序运行的效率也有明显地提升作用。
图表编号 | XD00213463200 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.26 |
作者 | 蒋婷 |
绘制单位 | 南京财经大学信息工程学院 |
更多格式 | 高清、无水印(增值服务) |