《表5 停用词及其词频:基于扩展规则与统计特征的未登录词识别》

《表5 停用词及其词频:基于扩展规则与统计特征的未登录词识别》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于扩展规则与统计特征的未登录词识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

扩展规则需要使用停用词词典。在自然语言处理中,停用词指只在语句中充当某种成分而对语义表达无任何贡献的字词,这些字词通常不与其他字词构成有意义的复合词,如“了”“的”“不”。互联网上存在各种版本的停用词词典,这些停用词词典通常只收录通用领域的停用词。而本文研究涉及各行业领域,为提高各行业领域未登录词识别效果,对职位语料库进行分词并统计词频,从中选取词频大于1 000且与其他词组成复合词概率低的词作为停用词,部分停用词及其词频如表5所示。再结合通用领域停用词词典,建立一部含1 900个停用词的行业领域停用词词典。