《表3 国内2000—2009年和2010—2018年医学信息学LDA主题模型分析结果》

《表3 国内2000—2009年和2010—2018年医学信息学LDA主题模型分析结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《21世纪以来医学信息学研究走向及其健康信息学转向》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

读取国际Web of Science和国内CNKI全记录文本数据,通过Python的Gensim工具包中的LDA模型,设置超参数alpha=50/k,进行预处理操作,由于传统分词方式无法还原医学信息学领域中英文大量的专业名词,如“Medical Informatics”、“医学信息学”等,所以本文国际数据基于美国国立医学图书馆MESH医学主题词库(55742条),国内数据基于结巴(jieba)内置分词,并结合VOSviewer共现关键词,获得国际、国内合计10739个词,提取国际、国内每篇文档中相应主题和关键词,用Gibbs Sampling随机抽样算法,进行最大正则匹配,并过滤特色字符、常见缩写单词,清洗停用词,去除无特征意义的单词,对各种形式单词进行词性还原和相应归并,参考Vosviewer模块化主题聚类,选取每一个主题中概率最高的10个词进行抽象概括,数据结果如表2和表3所示,解读结果如下。