《表2 Reuters Corpus数据集上的实验结果对比分析》

《表2 Reuters Corpus数据集上的实验结果对比分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于加权局部线性KNN的文本分类算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
/%

数据集质量对分类器的效果具有直接影响,复旦大学提供的文本分类语料库是一个严重不均衡的分类语料库,改进算法的优势可能体现得并不明显,因此在重复对比实验中采用了国际广泛应用的路透社语料库Reuters Corpus,并从中随机选取了五个类别,每一类别的训练集和测试集均为400和200篇。实验将本文L2KNN_W与LLKNN、KNN、Rocchio[22]、SVM[23]、NB[24]、Text CNN算法[21]进行对比,表2只显示了测试结果的平均值。从表2中可以明显看出,L2KNN_W算法的准确率比其他主流算法最低提升2.2%,最高提升13.26%;召回率虽低于SVM和LLKNN算法,但结果仍然是可以接受的。综合来看,改进后的算法在实验数据上比其他算法的表现效果较优,分类效果可以满足现有要求。