《表2 数据集处理之后统计信息》
为验证模型的主题建模能力。本文选择近期搜集Twitter自媒体数据165360条数据。在对这些数据进行去噪过滤基础上分词处理,去除停用词等及舍弃在文档集合内出现低于10次数的词。如表2展示了每个数据集的文档数目、词典大小、平均文档的长度。
图表编号 | XD003785000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.01 |
作者 | 黄婵 |
绘制单位 | 赣州师范高等专科学校 |
更多格式 | 高清、无水印(增值服务) |
为验证模型的主题建模能力。本文选择近期搜集Twitter自媒体数据165360条数据。在对这些数据进行去噪过滤基础上分词处理,去除停用词等及舍弃在文档集合内出现低于10次数的词。如表2展示了每个数据集的文档数目、词典大小、平均文档的长度。
图表编号 | XD003785000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.12.01 |
作者 | 黄婵 |
绘制单位 | 赣州师范高等专科学校 |
更多格式 | 高清、无水印(增值服务) |