《表4 语料库规模：基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于句子级Lattice-长短记忆神经网络的中文电子病历命名实体识别》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本研究使用向量训练工具Word2vec基于大规模医学专业文本训练了2个字符向量集，准备了2个训练语料库，第1个是电子版的内科学、外科学、妇产科学和儿科学4本医学专业书（以下简称nwfe＿emd），第2个语料是2017年CCKS竞赛发布的未标注EMR数据（以下简称unlabel＿emd）。用Python进行数据清洗，去掉与专业内容无关的部分，然后进行字符粒度分割，分割后作为模型输入在Word2vec中进行预训练分别得到nwfe＿emd和unlabel＿emd 2个字符向量集。字符分割后训练的向量集规模如表4所示。

图表编号	XD0055525300 严禁用于非法目的
绘制时间	2019.05.20
作者	潘璀然、王青华、汤步洲、姜磊、黄勋、王理
绘制单位	南通大学医学院医学信息学教研室、南通大学医学院医学信息学教研室、哈尔滨工业大学(深圳)计算机科学与技术学院、海军军医大学(第二军医大学)长征医院风湿免疫科、南通大学信息科学技术学院通讯工程教研室、南通大学医学院医学信息学教研室
更多格式	高清、无水印（增值服务）