《表3 四种特征权重计算方案在Ucorp_A上的分类结果》

《表3 四种特征权重计算方案在Ucorp_A上的分类结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于类别信息和特征熵的文本特征权重计算》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

特征权重计算方法的好坏对文本分类效果影响很大,因此可以通过对文本分类效果的比较来评价特征权重计算方法的效果。本实验仍然使用维吾尔文文本数据集Ucorp_A。对数据集采用CDDTE[14]方法进行特征选择,用tf.idf方法来计算特征权重构造文本向量进行分类实验。当特征数为2 000的时候四个分类器的micro F1值都达到了各自的最高值。在本实验中,本文使用这2 000个单词作为文本特征,分别采用不同的三种特征权重计算方法tf.rf、tf.icf.te和tf.rf.icf.te来对每个特征进行加权,形成三种不同的特征空间。最后在不同的特征空间中对数据集的测试文本进行向量化,分别采用四种分类器NB、KNN、centroid和SVM对测试文本进行分类实验。表3给出了在Ucorp_A上的分类实验结果。