《表2 每个主题对应的频率最大的10个主题词》

《表2 每个主题对应的频率最大的10个主题词》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《“一带一路”若干区域社会发展态势大数据分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于沿线国家社会发展态势存在差异,新闻主题类型不完全相同,因此,本文利用LDA主题模型针对各沿线国家新闻数据分别进行主题挖掘,得到每条新闻的主题概率向量;然后引入K均值聚类算法对主题概率向量进行划分,若向量值不足以划分为3类,或最大概率值小于阈值(阈值大小与主题挖掘时设定的主题数目有关),或各聚类簇中心差异过小,则认为此新闻文档无法对应于任一主题,丢弃此新闻文档。最后将最大概率值对应聚类簇中的主题作为新闻文档的主题,分析各主题的主题词概率向量,对主题进行人工解释,共得到19类感兴趣的新闻主题,各主题概率最大的10个主题词如表2所示。对沿线国家新闻主题进行统计,计算得到各类新闻主题占各国新闻总数的百分比(表3)。以沿线25个国家的省一级的行政单元为单位,统计各类新闻主题出现的频率,得到各省新闻主题频率向量,将占比最高的新闻主题作为地区的社会关键要素,对此结果进行时空可视化,如图1所示。