《表2 政策文本主题词提取算法》

《表2 政策文本主题词提取算法》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《政策与部门视角下中国网络空间治理——基于LDA和SNA的大数据分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

针对政策文本的数据集合,采用LDA挖掘指定个数的主题词,可以实现对文本主题词抽取的量化处理。这些主题代表一个文本,以实现特征降维的作用。LDA模型分析过程为:主题词提取→建立分类主题→概率统计及排序。(1)主题词提取,根据主题词的不同含义,将其归类至不同的分类主题中;(2)建立分类主题,含义相近的特征词分别标注为对应的主题;(3)概率统计及排序,统计每个分类主题的概率值并排序。LDA主题词提取算法如表2所示。其中,α、β为先验参数;θ、φ为两个需要估计的参数;文本总量用M表示;W代表词典大小;K为主题数量;Nm为文本m的长度。在这里需要解释的一点是,在文本获取之前,算法事先并不知道这些主题,笔者也未预先设计已有的主题词或分类主题。