《表2 LDA与TP2Vec主题表征词语比较》

《表2 LDA与TP2Vec主题表征词语比较》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于短语表示学习的主题识别及其表征词抽取方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了与TP2Vec模型进行公平的定性比较,LDA模型所用数据经过了相同的数据预处理,如过滤掉词频低于5的词语。根据这两个模型的主题识别结果,分别对前20个主题表征词语进行检查,选出最能表达主题的5个词语,如表2所示。可以发现,使用LDA模型得到的主题表征词science、citation、study等都是一些概括性较强的词语,对应词频都很高,分别为5 151、6 852和7 135,其中词频最低的词语technology也达到了1 962。通过这些表征词只能粗略地认为主题可能涉及引文分析、信息检索、科研合作等内容。此外,多个主题中的表征词也有较多重合,主题之间的区分度不高,导致主题辨识度较低。