《表4 中文分词器对比分析》

《表4 中文分词器对比分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Lucene搜索引擎的涉恐信息检索模块设计与实现》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

分词合理性将影响倒排索引结构和查询效果,因而选择合理的中文分词器十分重要。中文分词(Word Segmentation,WS)指将句子根据语义划分为词序列[11]。能够引入Lucene的分词器有十余种,考虑版本变动及分词器后续更新支持,仅考虑StandardAna-lyzer、CJKAnalyzer、SmartChineseAnalyzer三种,中文分词器对比分析见表4。通过比较三种分词器的特点,SmartChineseAnal-yzer在中文分词方面功能强大,能够达到其他分词器的效果,也支持字典拓展,本系统最终使用SmartChineseAnalyzer实现中文分词功能。