《表1 各种分词算法的切分准确率》
在搜索引擎应用中运用中文分词算法时,还可采用基于N元语法的分词形式实现中文字符的有效划分。它主要以一种“模型”思维,对检索词汇进行延展,进而在搜索引擎中实现精准识别。在此种方法下,同与上述分词算法同样具有词典,并按照一定的匹配原则对搜索词汇进行匹配,并设计“N元分词图”,之后借助动态设计的理念针对中文词汇进行“分解”,其整个分词流程如(图1)所示。同时,还可依靠“二元模型”的形式,对词句中涉及的“分子”进行整合处理,然后得出可靠的关键词,将其用于计算机系统识别。从多种中文分词算法切分准确率结果中可发现,在不同领域中,其准确率不一致,如(表1)所示,N元语法统计在各个学科信息检索中普遍具有较高的准确率,故而值得在中文搜索引擎中予以推广,促使中文分词算法发挥出真正的分词效用,避免歧义的产生。
图表编号 | XD00192499400 严禁用于非法目的 |
---|---|
绘制时间 | 2021.02.25 |
作者 | 李文华 |
绘制单位 | 新疆交通职业技术学院 |
更多格式 | 高清、无水印(增值服务) |