《表2 五种权重计算方案在文艺类上的计算结果》

《表2 五种权重计算方案在文艺类上的计算结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于类别信息和特征熵的文本特征权重计算》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在表格中,每个特征词后面括号里的数字代表该特征词的cf值。从表1和2中可以看到,当用tf.idf和tf.icf来计算权重时,四个特征词在两个不同类别上的权重值是一样的。这是因为这两个特征权重方案不考虑正相关和负相关类别,而只考虑特征的全局特性(idf和icf)。当用tf.rf、tf.icf.te和tf.rf.icf.te来计算权重时,这三种方案能够在两个类别中正确地区分四个特征词。值得注意的是,特征词的类别频率为1,也就是说,该特征词只有在文艺这一类中出现。当分别用tf.icf.te和tf.rf.icf.te计算权重时,在文艺类中,特征词的权重比体育类中的权重值分别从0.023和0.044增大到了0.521和0.667,增幅较大。