《表1 档案数据量：基于语义的档案数据智能分类方法研究》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于语义的档案数据智能分类方法研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

在本文采用的数据集上，通过LDA主题模型进行文本特征提取，得到与数据集中文本文件相对应的7 637个维度为20的文档-主题特征向量。对这些的文档-主题特征向量进行K-means聚类，K值设置为7，与真实类别相对应。从表1可以看到，本实验采用的数据集是不平衡标签数据，不同种类的档案数量各异，所以采用加权平均的精准率、召回率和F1值的评价更能客观地展现聚类算法的结果。实验结果的F1值对比如表2所示，从聚类的结果来看，运用LDA主题特征的K-means聚类方法在5个类别的聚类准确率上都要遥遥领先于基于TF-IDF特征的聚类方法，这5类文本包括C3-Art、C11-Space、C32-Agriculture、C38-Politics、C39-Sports，平均F1值要高出10%以上。由表3可知，基于LDA主题特征的聚类算法在整个数据上的Micro avg F1值上高出0.08，Weighted avg F1上比传统基于VSM模型的聚类高0.06。本文的方法在Weighted avg Precision和Weighted avg Recall这两项精准率和召回率的指标上也都有不同程度的提升，可以说基于LDA主题特征的聚类算法的聚类效果在各项指标上都有显著的提升。精准率、召回率和F1值指标的提升证明本文的方法可以准确而全面地对档案数据进行聚类。

图表编号	XD00201632500 严禁用于非法目的
绘制时间	2021.03.15
作者	霍光煜、张勇、孙艳丰、尹宝才
绘制单位	北京工业大学信息学部多媒体与智能软件技术北京市重点实验室、北京工业大学信息学部多媒体与智能软件技术北京市重点实验室、北京市交通信息中心、北京工业大学信息学部多媒体与智能软件技术北京市重点实验室、北京工业大学信息学部多媒体与智能软件技术北京市重点实验室
更多格式	高清、无水印（增值服务）