《表1 4种特征选择方法下的KNN分类效果》
表1是在KNN分类器下不同特征维数时IG、ECE和CHI与扩展后最优的特征选择方法对应的分类效果对比表,从表1可以看出,3种特征选择方法在特征维数等于1000时取得了在5个维度下的最优分类效果,分类准确率分别为88.01%、87.79%、88.97%。为了验证新方法的特征提取效果,在1000维基础上使用词向量技术进行特征扩展,200维为扩展特征数目最优值。当使用词向量对3种特征选择方法进行特征扩展后,3种特征选择方法对应的分类准确率均有较大幅度提升,其中与特征300维相比较,IG提高了4.93%,ECE提高了6.64%,CHI提高了4.6%。与特征1000维相比较,ECE提高了1.93%,IG提高了1.18%。CHI提高了0.43%。综合图4及表1的数据显示,使用词向量对分类主题进行语义特征扩展能够把与主题具有相关语义关系的特征提取出来,联合初始特征一起文档表示时能够提高分类准确率。
图表编号 | XD00110114300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.01 |
作者 | 吕建新、郑伟、马林、李明、谷翠梅 |
绘制单位 | 河北北方学院图书馆、河北北方学院理学院、河北北方学院理学院、河北北方学院理学院、河北北方学院理学院 |
更多格式 | 高清、无水印(增值服务) |