《表2 传统TF-IDF和改进后的TF-IDF方法在测试数据集各个类别上的分类性能》

《表2 传统TF-IDF和改进后的TF-IDF方法在测试数据集各个类别上的分类性能》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《文本分类中一种改进的特征项权重计算方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文采用NLPIR2016(http:∥ictclas.nlpir.org/)对文本集进行分词和词性标注,剔除分词结果中对文档主旨没有任何提示作用的停用语,如“为何”、“与其”、“人们”等,以及一些数字和符号.由于一般而言,名词、动词和形容词是句子的重要组成成分,因此,为了抽取能够表征文档主要内容的词语,对于停用词过滤后的分词结果,本文只保留名词、动词和形容词3种词性的词语,去重之后将它们作为特征项.然后分别采用传统的TF-IDF方法和改进后的TF-IDF方法计算特征项的权重,结合KNN[15](K=8)和SVM[16]模型对数据集进行分类.分类器在整个测试数据集以及测试数据集各个类别上的分类性能分别如表1和表2所示.