《表3 复旦大学中文语料库中特征维度2500时不同类别的SVM分类宏F1值》

《表3 复旦大学中文语料库中特征维度2500时不同类别的SVM分类宏F1值》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《文本分类中基于CHI改进的特征选择方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
%

在网易新闻语料库和复旦大学中文语料库中,在宏F1值分别达到最大值时分析各个类别的宏F1值,如表2、表3。各个类别宏F1值差别明显,原因是不同文本长度对于结果的影响,如果文本较短,含有很多空值,使向量稀疏,造成分类结果较低。若文本含有词数较多,并含有一些类别区分度高频词语,使宏F1值较大,本文提出的方法能有效改善传统CHI和TF-IDF的缺陷,过滤掉低频词语,改善不同特征词的权重,使得分类效果更好,性能更稳定。