《表2 数据集处理之后统计信息》

《表2 数据集处理之后统计信息》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于语义词向量的自媒体短文本主题建模》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为验证模型的主题建模能力。本文选择近期搜集Twitter自媒体数据165360条数据。在对这些数据进行去噪过滤基础上分词处理,去除停用词等及舍弃在文档集合内出现低于10次数的词。如表2展示了每个数据集的文档数目、词典大小、平均文档的长度。