《表2 五种权重计算方案在文艺类上的计算结果》
在表格中,每个特征词后面括号里的数字代表该特征词的cf值。从表1和2中可以看到,当用tf.idf和tf.icf来计算权重时,四个特征词在两个不同类别上的权重值是一样的。这是因为这两个特征权重方案不考虑正相关和负相关类别,而只考虑特征的全局特性(idf和icf)。当用tf.rf、tf.icf.te和tf.rf.icf.te来计算权重时,这三种方案能够在两个类别中正确地区分四个特征词。值得注意的是,特征词的类别频率为1,也就是说,该特征词只有在文艺这一类中出现。当分别用tf.icf.te和tf.rf.icf.te计算权重时,在文艺类中,特征词的权重比体育类中的权重值分别从0.023和0.044增大到了0.521和0.667,增幅较大。
图表编号 | XD00107230700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.11.01 |
作者 | 阿力木江·艾沙、殷晓雨、库尔班·吾布力、李喆 |
绘制单位 | 新疆大学网络与信息技术中心、新疆大学信息科学与工程学院、新疆大学信息科学与工程学院、新疆大学信息科学与工程学院、新疆大学网络与信息技术中心 |
更多格式 | 高清、无水印(增值服务) |