《表4 中文分词器对比分析》
提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Lucene搜索引擎的涉恐信息检索模块设计与实现》
分词合理性将影响倒排索引结构和查询效果,因而选择合理的中文分词器十分重要。中文分词(Word Segmentation,WS)指将句子根据语义划分为词序列[11]。能够引入Lucene的分词器有十余种,考虑版本变动及分词器后续更新支持,仅考虑StandardAna-lyzer、CJKAnalyzer、SmartChineseAnalyzer三种,中文分词器对比分析见表4。通过比较三种分词器的特点,SmartChineseAnal-yzer在中文分词方面功能强大,能够达到其他分词器的效果,也支持字典拓展,本系统最终使用SmartChineseAnalyzer实现中文分词功能。
图表编号 | XD00112536600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.10 |
作者 | 彭世亮、周欣、卿粼波、熊淑华、何小海 |
绘制单位 | 四川大学电子信息学院、四川大学电子信息学院、中国信息安全测评中心、四川大学电子信息学院、四川大学电子信息学院、四川大学电子信息学院 |
更多格式 | 高清、无水印(增值服务) |