《表5 LT选取边界样本后的KNN分类结果》

《表5 LT选取边界样本后的KNN分类结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种新的样本选择算法及其在文本分类中的应用》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:采用所有样本进行KNN实验的MacF1为0.703 38,MicF1为0.847 92.

从表4和表6可看出,随着NK取值的增加精度也随之增加,且逐渐接近采用所有样本的分类结果;从表5可看出,当NK=4时达到最好精度.此后,随着样本的增加反而有所下降,这是因为LT集是一个不均衡的多标签的文档集,最大的类别文档数为2 877,而最小的类文档数只有101.当NK达到一定值时,小类的文档基本都已加入样本集,随着NK值的增大,加入的都是大类的文档,这样反而会影响小类的精度,从而影响整个文档集的结果.