《表2 数据集的前15个高频词汇》

《表2 数据集的前15个高频词汇》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《健康社区用户教育信息推荐模型比较》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文数据预处理借助jieba组件、StanfordPOSTagger和Word Net Lemmatizer分别进行分词、词性标注及词形还原,然后去除语料集中的停用词,对两个数据集的词汇分别进行统计,结果如表1所示。经jieba分词后得到用户问题集中的单词总数约为健康教育短文集中的2倍,但在词性标注及词形还原、去重预处理操作后两个数据集中唯一词的数量较为接近。对原始的用户问题集和教育短文集进行Meta Map处理,得到UMLS概念映射数量分别为4810和4427。数据预处理后,各数据集的前15个高频单词如表2所示。