《表1 数据集概况Tab.1 Statistical characteristics of the dataset》
本文使用上海中医药大学附属曙光医院所提供的冠脉造影文本,其中包含5种实体类型(部位词、修饰词、否定词、方位词、数量词)和5类语义关系(修饰关系、否定关系、数量关系、位置关系、无关系)。在删除了隐私信息后,由学生在医生指导下进行数据标注,如图3即是一个标注示例。具体而言,本文以3人为一组,先请2人对同一份病历文本进行标注,当二者的标注结果产生冲突时,由第三人决定最终的标注结果。当标注完成后,由于句中可能同时包含多个实体,每2个实体之间可以组成一个关系样本,对这些关系样本以7∶3的比例随机划分为训练集和测试集。表1展示了数据集的构成情况,其中关系名称中的括号内容表示关系的方向(即图3中箭头的指向),无关系为负采样的无关系实体对。
图表编号 | XD0032539100 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.25 |
作者 | 王祺、邱家辉、阮彤、高大启、高炬 |
绘制单位 | 华东理工大学信息科学与工程学院、华东理工大学信息科学与工程学院、华东理工大学信息科学与工程学院、华东理工大学信息科学与工程学院、上海中医药大学附属曙光医院 |
更多格式 | 高清、无水印(增值服务) |