《表1 各种分词算法的切分准确率》

《表1 各种分词算法的切分准确率》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《中文分词算法在搜索引擎应用中的运用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在搜索引擎应用中运用中文分词算法时,还可采用基于N元语法的分词形式实现中文字符的有效划分。它主要以一种“模型”思维,对检索词汇进行延展,进而在搜索引擎中实现精准识别。在此种方法下,同与上述分词算法同样具有词典,并按照一定的匹配原则对搜索词汇进行匹配,并设计“N元分词图”,之后借助动态设计的理念针对中文词汇进行“分解”,其整个分词流程如(图1)所示。同时,还可依靠“二元模型”的形式,对词句中涉及的“分子”进行整合处理,然后得出可靠的关键词,将其用于计算机系统识别。从多种中文分词算法切分准确率结果中可发现,在不同领域中,其准确率不一致,如(表1)所示,N元语法统计在各个学科信息检索中普遍具有较高的准确率,故而值得在中文搜索引擎中予以推广,促使中文分词算法发挥出真正的分词效用,避免歧义的产生。