《表1 最优话题数与微博数》
在数据处理阶段,以Pycharm作为开发环境,Python版本为3.6。首先对数据进行过滤与清洗等规范化处理,去除“转发微博”“网页链接”以及网址、表情乱码等无用字段,以日期为时间节点切分数据集,并利用jieba分词对语料进行分词、去停用词后存入数据库中,作为后续处理的输入。在分词过程中需要将部分人名、术语以及特定词添加到自定义词典中以保证分词的准确性。在进行话题提取前须确定各时间点的最优话题数,采用困惑度计算公式计算各时间点最优话题数量。微博数与最优话题数如表1所示。
图表编号 | XD00198146500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.11.25 |
作者 | 黄微、赵江元、闫璐 |
绘制单位 | 吉林大学管理学院、吉林大学管理学院、吉林大学管理学院 |
更多格式 | 高清、无水印(增值服务) |