《表3 融合CNN和余弦相似度算法的实体链接结果》

《表3 融合CNN和余弦相似度算法的实体链接结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向企业动态风险的知识图谱构建与应用研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

融合CNN和余弦相似度的实体链接模型结构主要分为:输入层、CNN表示层、匹配层和输出层。根据实体命名识别的结果,首先对语料数据进行预处理,把以缩写、简称、别名等存在的企业实体进行查询修正,使用上下文匹配和知识库信息检索策略对实体指称进行扩展,得到标准的实体名称集合M={M1,M2,…,MN},并基于匹配规则[8]的方法生成候选实体集C={C1,C2,…,CN},使用Google开发的开源计算工具Word2Vec对候选实体集的词向量化作为模型的输入。其次通过CNN表示层计算语义特征,将原始的高维文本特征,映射到低维的语义空间向量中,输出一个概念向量,再使用经典的余弦相似度算法完成对实体概念向量的匹配。为了提高实体排序算法的性能,引入空实体判别机制,若候选实体集为空则认为不存在歧义实体,对于候选实体排序结果设定阈值,若相似度小于该阈值也判定为空实体,最后与不使用空实体判别机制的实验进行了对比。表3所示的实验结果表明,与单一的候选实体消歧算法相比,空实体判别能够有效提升模型的准确率和召回率。