《表1 GENIA V3.02语料库中实体标签分布》
为了验证本文提出的算法在生物医学领域中命名实体识别的性能,选取传统的HMM算法与本文提出的PU场景下的两步法算法进行比较。目前,最常用的生物医学标注语料库是GENIA V3.02语料库,该语料库包含了来自MEDLINE的2000个摘要标注文本(约360000个单词),并且包含36个词性类别,其中包含5个生物医学实体类型。本文识别的是蛋白质命名实体,采用了精确率、召回率和F值[19]作为评价指标。GENIA V3.02语料库中实体标签分布说明见表1。
图表编号 | XD0042785600 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.18 |
作者 | 高冰涛、翟振刚、刘斌 |
绘制单位 | 中国电子科技集团公司第三十六研究所、西北农林科技大学信息工程学院、中国电子科技集团公司第三十六研究所、西北农林科技大学信息工程学院 |
更多格式 | 高清、无水印(增值服务) |