《表3 训练集和测试集中PHI实体分布》

《表3 训练集和测试集中PHI实体分布》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向文本命名实体识别的深层网络模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实验采用Informatics for Integrating Biology and the Bedside(I2B2)2006年、2014年英文评测数据集和某医院妇产科中文医疗文本.I2B2是美国国立卫生研究院资助的国家生物医学中心,2006年评测数据中隐私实体通过XML标签来标记,共包含年龄、日期、医生姓名、医院名、证件号码、地址、患者姓名、电话共8种命名实体.2014年数据集格式较2006年有较大变化,通过命名实体在整个文本中的偏移量来标记,其中的隐私实体类别也比2006年更复杂,共有7个大类,分别是姓名、职业、地址、年龄、日期、联系方式和证件号码,大类下又更进一步划分为多个小类.妇产科医疗文本来自某医院真实数据,包括入院诊断、住院经过、出院诊断等,标注格式与2006年I2B2格式一致.中文数据首先进行分词处理,其他处理步骤与英文语料一致.实验语料中隐私实体数量见表3.