《表5 实体标签表:基于深度学习的甲状腺病史结构化研究与实现》
(2) 文本分词。为确保实体识别模型的顺利训练,本文依赖基于标准词表构建的专业词库对病史文本进行精准分词。针对现有的中文分词工具对专业性较高的医学文本存在错误分词的问题,建立专业词库,提高分词准确度。专业词库包括症状、疾病、检查和治疗四个子库,初始化来源于几个专业数据集。另外,分词模块中需要对训练集加上标注,专家团队对13类实体进行标注,产生21种标签用于模型的监督学习。本文基于病史数据内容对甲状腺病史分词后的数据设计标签见表5。
图表编号 | XD0056287400 严禁用于非法目的 |
---|---|
绘制时间 | 2019.07.01 |
作者 | 骆轶姝、申舒心、陈德华 |
绘制单位 | 东华大学计算机科学与技术学院、东华大学资产管理处、东华大学计算机科学与技术学院、东华大学计算机科学与技术学院 |
更多格式 | 高清、无水印(增值服务) |