《表1 六个阶段对应的聚类主题》

《表1 六个阶段对应的聚类主题》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《网络舆情事件演化分析——以杭州女童失踪案为例》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

结合“百度指数”的可视化结果和崔鹏等学者提出的舆情演化六阶段模型,此次事件的生命周期过程可以表示为图2。依据时间把爬取的语料进行划分,使用TF-IDF算法为每个阶段筛选出100个关键词,手动删除其中的无关词,用Word2vec训练词向量后,使用Kmeans对词向量进行聚类后通过归纳得到各阶段主题,如表1。由于Kmeans聚类需要提前确定聚类数,可用Bcubed精度和召回率等外在方法和轮廓系数等内在方法来评估不同聚类数时的聚类质量,以确定最优聚类数。本文为了本文为了简单并能够说明主要内容,对每个阶段都选择聚类数3为例来进行实验。