《表1 最优话题数与微博数》

《表1 最优话题数与微博数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《网络热点事件话题漂移指数构建与实证研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在数据处理阶段,以Pycharm作为开发环境,Python版本为3.6。首先对数据进行过滤与清洗等规范化处理,去除“转发微博”“网页链接”以及网址、表情乱码等无用字段,以日期为时间节点切分数据集,并利用jieba分词对语料进行分词、去停用词后存入数据库中,作为后续处理的输入。在分词过程中需要将部分人名、术语以及特定词添加到自定义词典中以保证分词的准确性。在进行话题提取前须确定各时间点的最优话题数,采用困惑度计算公式计算各时间点最优话题数量。微博数与最优话题数如表1所示。