《表2 UBP7蛋白的同义词表》

《表2 UBP7蛋白的同义词表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Neo4j生物医药知识图谱的构建》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

下面将以蛋白质的相关数据为例介绍实体对齐方法并进行实验评估。蛋白质的命名具有多样性,来自不同数据源的同一个蛋白质可能具有不同的名称,例如人类的UBP7蛋白,其常见的命名有“UBP7_HUMAN”、“USP7 HAUSP”等6种,如表2所示。因为实体概念的同义词现象,导致在实体对齐时基于规则的算法不能准确的进行匹配,所以需要使用相似性函数进行相似度评估,常用的相似性函数有(1)基于文本的相似性函数如Jaccard相似性算法、余弦相似性算法、编辑距离相似性算法;(2)基于结构的相似性函数如共同邻居计数算法、Adar评分算法等。本文在综合使用这两种相似性算法的基础上构建了基于领域的本体与词汇表来提升相似性函数的准确性。