《表2 7种特征选择算法分类P值结果》

《表2 7种特征选择算法分类P值结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于对数似然比的中文文本分类特征选择研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

通过中文分词系统对语料库文本进行分词,将常用虚词进行过滤处理,预处理后的单词总数为122 347个,特征选择分别选用IG,ECE,MI,WET,DF,CHI和LLR这7种算法进行。特征空间特征词数量分别取50,100,200,400,600和800,针对每个类别计算P、R和F1值,再计算分类系统的平均P、R和F1值。KNN分类算法中,邻居个数K取值为100,表示保留和待分类文档最近的100篇训练文档,7种特征选择算法得到的分类评估结果如表2至表4以及图l,图2所示。