《表2 3种jieba分词模式》
在文本处理中,单词是有意义的语言组成中最小的且能够独立活动的成分。中文不同与英语等拉丁化文字,词与词之间通过空格来隔开,天然的就能形成独立的单元。中文是靠逗号、句号等分界符对句、段等界限进行分隔。但在词语的分隔上,没有形成一种类似于空格对于英文的形而上的分割符。为了将中文语句形成独立的单元,使得计算机能够获取到文本的特征,就必须将中文进行分词。python中第三方库jieba中文分词库支持三种分词模式,如表2所示。
图表编号 | XD00223294700 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.20 |
作者 | 卓琳、陈圣群 |
绘制单位 | 福建江夏学院电子信息科学学院、福建商学院信息工程学院 |
更多格式 | 高清、无水印(增值服务) |