《表1 不同词语在不同类别文本中的出现次数》

《表1 不同词语在不同类别文本中的出现次数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于WMF_LDA主题模型的文本相似度计算》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

不同类别的新闻文本具有其常用的词语集合,或专业领域的词语集。本文采用复旦语料库,从中选择太空、艺术、农业、经济、政治五个类别中的随机200篇文章,计算不同词语在不同类别文本中的出现频率,结果如表1所示。“灌溉”“农村”等词语在“农业”类别中出现的次数较多,而在其他类别的文本中出现次数较少甚至不会出现;同理,“钢琴”“航天”等词语则分别在“艺术”与“太空”两类文本集中出现的次数较多。