《表2 研究主题聚类结果:守正拓新 开放融合——2019年图书情报与档案管理青年学者论坛会议综述》

《表2 研究主题聚类结果:守正拓新  开放融合——2019年图书情报与档案管理青年学者论坛会议综述》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《守正拓新 开放融合——2019年图书情报与档案管理青年学者论坛会议综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文使用TF-IDF与Kmeans算法对投稿文章进行文本聚类,进而探索研究主题的分布情况。该分析过程利用Python编程按如下步骤实现:(1)文本预处理中,将每篇文章的标题、关键词以及摘要信息进行整合,使用jieba分词工具进行分词处理,并去掉停用词和标点符号,将关键词加入到分词词典中防止关键词被切分;(2)使用sklearn工具包将分词后的文本语料通过TF-IDF算法完成文本向量化处理,使用Kmeans算法构建聚类模型;(3)Kmeans算法首先需要确定聚类数量(k),在此使用计算簇内误差平方和(Sum of the Squared Errors,SSE)与elbow方法结合找出k值,对k依次取值2到20之间的数字,并依次计算不同k值对应的SSE,即样本距离最近的聚类中心的距离总和,结果显示聚类结果为16个类别时,SSE最小,且当增加聚类数量时无明显下降,因此选择16个聚类结果,并将离每个聚类中心点最近的5个词作为类的关键词;(4)进一步用训练好的聚类模型对原始文本进行分类,确定每篇文章所属主题,得出聚类结果(见表2)。