《表2 各类实体训练集、验证集及测试集分布》

《表2 各类实体训练集、验证集及测试集分布》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于BiLSTM-CRF中文临床文本中受保护的健康信息识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

数据集标注一致性达96%,并对存在争议的地方进行讨论确定一致结果。将出院小结数据集按照7∶1∶2的比例随机划分为训练集、验证集和测试集,分别包含22 617份、3 231份和6 463份文本。各类PHI实体分布如表2所示。实体类别主要以患者姓名、日期、医疗机构名称等为主,其他PHI实体类型频率较低。