《表1 电子病历样例:基于预训练BERT字嵌入模型的领域实体识别》

《表1 电子病历样例:基于预训练BERT字嵌入模型的领域实体识别》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于预训练BERT字嵌入模型的领域实体识别》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在医疗电子病历的记录中,由于医疗实体的特殊性,上下文同一实体的命名可能不同。表1节选了病历的部分内容,为了方便观察特地只标注了“肿瘤部位”。通过观察可以看出,右乳与右侧乳房为同一实体。序列标注任务中,Word2Vec是局部语料库进行训练的,其特征提取是基于滑窗的。在对类似上述文本进行词向量嵌入时,仅仅只能获取句子级别的信息,这样会丢失实体与实体间的关系,造成无法发现实体间上下文关系,有些情况下还可能会造成相同实体标签不一致,即上下文相同实体出现不同标签。为了解决以上问题,Glove[18]模型被提出。Glove的滑窗是基于全局语料的,加入全局信息后,能够有效提高上下文中相同实体的正确标注。但是Word2vec与Glove属于静态的词向量,无法获取相同词汇的多种含义,且不能在训练过程随上下文来消除词义的歧义。为了解决上述问题,Peter[19]等人提出了ELMO模型,其本质是两个独立训练的单向串联的LSTM预训练语言模型,它能够有效解决上下文词义的歧义问题。这种上下文词嵌入的方式与以往传统的词嵌入不同,它可以获取上下文信息并动态地改变词向量编码。实验表明,ELMO模型在医疗领域数据上的表现已经优于之前的模型[20]。但是近期由Google AI语言研究人员提出的BERT[21]模型在多个下游项目中,不仅在开放领域取得的结果优于ELMO,而且在医疗领域也取得了更好的结果[22]。