《表1 六个阶段对应的聚类主题》
结合“百度指数”的可视化结果和崔鹏等学者提出的舆情演化六阶段模型,此次事件的生命周期过程可以表示为图2。依据时间把爬取的语料进行划分,使用TF-IDF算法为每个阶段筛选出100个关键词,手动删除其中的无关词,用Word2vec训练词向量后,使用Kmeans对词向量进行聚类后通过归纳得到各阶段主题,如表1。由于Kmeans聚类需要提前确定聚类数,可用Bcubed精度和召回率等外在方法和轮廓系数等内在方法来评估不同聚类数时的聚类质量,以确定最优聚类数。本文为了本文为了简单并能够说明主要内容,对每个阶段都选择聚类数3为例来进行实验。
图表编号 | XD0096630200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.08.25 |
作者 | 牟馨忆、陈亚宁 |
绘制单位 | 对外经济贸易大学信息学院 |
更多格式 | 高清、无水印(增值服务) |