《表1 档案数据量:基于语义的档案数据智能分类方法研究》

《表1 档案数据量:基于语义的档案数据智能分类方法研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于语义的档案数据智能分类方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在本文采用的数据集上,通过LDA主题模型进行文本特征提取,得到与数据集中文本文件相对应的7 637个维度为20的文档-主题特征向量。对这些的文档-主题特征向量进行K-means聚类,K值设置为7,与真实类别相对应。从表1可以看到,本实验采用的数据集是不平衡标签数据,不同种类的档案数量各异,所以采用加权平均的精准率、召回率和F1值的评价更能客观地展现聚类算法的结果。实验结果的F1值对比如表2所示,从聚类的结果来看,运用LDA主题特征的K-means聚类方法在5个类别的聚类准确率上都要遥遥领先于基于TF-IDF特征的聚类方法,这5类文本包括C3-Art、C11-Space、C32-Agriculture、C38-Politics、C39-Sports,平均F1值要高出10%以上。由表3可知,基于LDA主题特征的聚类算法在整个数据上的Micro avg F1值上高出0.08,Weighted avg F1上比传统基于VSM模型的聚类高0.06。本文的方法在Weighted avg Precision和Weighted avg Recall这两项精准率和召回率的指标上也都有不同程度的提升,可以说基于LDA主题特征的聚类算法的聚类效果在各项指标上都有显著的提升。精准率、召回率和F1值指标的提升证明本文的方法可以准确而全面地对档案数据进行聚类。