《表1 电子病历样例：基于预训练BERT字嵌入模型的领域实体识别》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于预训练BERT字嵌入模型的领域实体识别》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

在医疗电子病历的记录中，由于医疗实体的特殊性，上下文同一实体的命名可能不同。表1节选了病历的部分内容，为了方便观察特地只标注了“肿瘤部位”。通过观察可以看出，右乳与右侧乳房为同一实体。序列标注任务中，Word2Vec是局部语料库进行训练的，其特征提取是基于滑窗的。在对类似上述文本进行词向量嵌入时，仅仅只能获取句子级别的信息，这样会丢失实体与实体间的关系，造成无法发现实体间上下文关系，有些情况下还可能会造成相同实体标签不一致，即上下文相同实体出现不同标签。为了解决以上问题，Glove[18]模型被提出。Glove的滑窗是基于全局语料的，加入全局信息后，能够有效提高上下文中相同实体的正确标注。但是Word2vec与Glove属于静态的词向量，无法获取相同词汇的多种含义，且不能在训练过程随上下文来消除词义的歧义。为了解决上述问题，Peter[19]等人提出了ELMO模型，其本质是两个独立训练的单向串联的LSTM预训练语言模型，它能够有效解决上下文词义的歧义问题。这种上下文词嵌入的方式与以往传统的词嵌入不同，它可以获取上下文信息并动态地改变词向量编码。实验表明，ELMO模型在医疗领域数据上的表现已经优于之前的模型[20]。但是近期由Google AI语言研究人员提出的BERT[21]模型在多个下游项目中，不仅在开放领域取得的结果优于ELMO，而且在医疗领域也取得了更好的结果[22]。

图表编号	XD00137032800 严禁用于非法目的
绘制时间
作者	丁龙、文雯、林强
绘制单位	南华大学计算机学院、南华大学计算机学院、南华大学计算机学院
更多格式	高清、无水印（增值服务）