《表1 研究的疾病概念及其在语料库中出现的次数》

《表1 研究的疾病概念及其在语料库中出现的次数》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Skip-gram词嵌入算法的结构化患者特征表示方法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

为了直观地了解表示学习如何捕获疾病、药物和实验室指标之间的关系,对生成的概念向量,通过非线性降维技术t-SNE算法[12]将20维概念空间降维到二维空间,以不同颜色标记不同类型(疾病、药物、实验室指标)的概念,从而实现概念向量的可视化。在生成的二维图上,观察两个点的距离来发现它们所代表的概念向量之间的语义相近程度及各个概念之间的联系。此外,按照ICD-10编码规则以及语料库中每类疾病出现的次数,将疾病分为15类(表1)。选出常见的5类疾病中出现次数最多的前5个疾病概念,利用余弦距离分别找出与该疾病概念最相近的前5个疾病概念、药物概念和实验室指标概念,结合临床实际情况对概念向量空间的结果进行定量分析。