《表7 行业领域未登录词识别召回率对比》
/%
实验结果表明,本文方法在识别行业领域未登录词中取得了较好效果,其准确率、召回率、F值均高于另外两种方法。文献[4,5]均以微博为语料库,研究通用领域未登录词识别,虽然充分利用了词频、互信息、邻接熵等统计特征,但是缺少对规则的运用,未登录词识别结果中包含大量统计特征值大于阈值的非词字符串。例如,文献[4]方法在识别IT互联网行业未登录词中,识别结果包含“学习Java”,这是因为“学习”和“Java”在此行业语料中共现次数较高,导致“学习Java”具有较高的词频、互信息、邻接熵。本文方法不仅充分利用了词频、互信息、邻接熵等统计特征,同时还结合了扩展规则。扩展规则源于对各行业领域未登录词构词特点的总结。中文词通常只与中文词组合成复合词,而英文词可以与中文词、数字、特殊符号等组合成有意义的复合词。根据扩展规则,可以避免类似“学习Java”这样无意义组合的产生,在一定程度上提高了未登录词识别效果。
图表编号 | XD0067701900 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 曾浩、詹恩奇、郑建彬、汪阳 |
绘制单位 | 武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室、武汉理工大学信息工程学院光纤传感技术与信息处理教育部重点实验室 |
更多格式 | 高清、无水印(增值服务) |