《表7 行业领域未登录词识别召回率对比》

《表7 行业领域未登录词识别召回率对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于扩展规则与统计特征的未登录词识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
/%

实验结果表明,本文方法在识别行业领域未登录词中取得了较好效果,其准确率、召回率、F值均高于另外两种方法。文献[4,5]均以微博为语料库,研究通用领域未登录词识别,虽然充分利用了词频、互信息、邻接熵等统计特征,但是缺少对规则的运用,未登录词识别结果中包含大量统计特征值大于阈值的非词字符串。例如,文献[4]方法在识别IT互联网行业未登录词中,识别结果包含“学习Java”,这是因为“学习”和“Java”在此行业语料中共现次数较高,导致“学习Java”具有较高的词频、互信息、邻接熵。本文方法不仅充分利用了词频、互信息、邻接熵等统计特征,同时还结合了扩展规则。扩展规则源于对各行业领域未登录词构词特点的总结。中文词通常只与中文词组合成复合词,而英文词可以与中文词、数字、特殊符号等组合成有意义的复合词。根据扩展规则,可以避免类似“学习Java”这样无意义组合的产生,在一定程度上提高了未登录词识别效果。