《表2 7种特征选择算法分类P值结果》
通过中文分词系统对语料库文本进行分词,将常用虚词进行过滤处理,预处理后的单词总数为122 347个,特征选择分别选用IG,ECE,MI,WET,DF,CHI和LLR这7种算法进行。特征空间特征词数量分别取50,100,200,400,600和800,针对每个类别计算P、R和F1值,再计算分类系统的平均P、R和F1值。KNN分类算法中,邻居个数K取值为100,表示保留和待分类文档最近的100篇训练文档,7种特征选择算法得到的分类评估结果如表2至表4以及图l,图2所示。
图表编号 | XD00923900 严禁用于非法目的 |
---|---|
绘制时间 | 2018.03.15 |
作者 | 梁伍七、李斌、许磊、江克勤 |
绘制单位 | 安徽广播电视大学信息与工程学院、安徽广播电视大学信息与工程学院、安徽广播电视大学信息与工程学院、安庆师范大学计算机与信息学院 |
更多格式 | 高清、无水印(增值服务) |