《表5 停用词及其词频:基于扩展规则与统计特征的未登录词识别》
扩展规则需要使用停用词词典。在自然语言处理中,停用词指只在语句中充当某种成分而对语义表达无任何贡献的字词,这些字词通常不与其他字词构成有意义的复合词,如“了”“的”“不”。互联网上存在各种版本的停用词词典,这些停用词词典通常只收录通用领域的停用词。而本文研究涉及各行业领域,为提高各行业领域未登录词识别效果,对职位语料库进行分词并统计词频,从中选取词频大于1 000且与其他词组成复合词概率低的词作为停用词,部分停用词及其词频如表5所示。再结合通用领域停用词词典,建立一部含1 900个停用词的行业领域停用词词典。
图表编号 | XD0067702200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 曾浩、詹恩奇、郑建彬、汪阳 |
绘制单位 | 武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室 |
更多格式 | 高清、无水印(增值服务) |