《表1 数字类型PHI的正则表达式》

《表1 数字类型PHI的正则表达式》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于规则和机器学习的中文电子病历患者隐私保护算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

电子病历中的数字类型PHI多表现为患者住院号、病历号、身份证号、电话号码和邮编,数字类型的隐私信息可以方便地用正则表达式识别出来。本文使用的部分正则表达式如表1所示。例如,我国的身份证号是形式较为固定的特征组合码,由17位数字本体码和1位数字校验码组成。可使用如下正则表达式(\\d{6})(\\d{4})(\\d{2})(\\d{2})(\\d{3})([0-9]|X)识别,排列顺序从左至右依次为:6位数字地址码,8位数字出生日期码(包括年月日),3位数字顺序码和一位数字校验码。虽然身份证号根据上述正则表达式可容易地识别出来,但是极易与心电图的影像编码混淆。为保证数字类型PHI的精确率,本文利用正则表达式筛选出候选集后通过上下文语义判断进一步筛选出数字类型PHI并加以去除,若候选词前后5个词出现影像、药品或者标识医疗单位的字样,则将其从候选结果集删除。