《表5 样本数据统计信息》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《一种面向医学文本数据的结构化信息抽取方法》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

本文使用真实的医学影像报告作为实验数据，其中共包含3000多条文本记录，每条记录由检查项目、主要病症和人工描述三个文本类型的属性组成.针对这些实验数据，本文首先进行了初步的统计分析，如表5所示，实验的文本数据集在各类别上分布不均.因此，本文重点筛选了样本数量占比较大的支气管镜、彩超、胃镜的影像报告数据进行实验.此外，本文还将数据分为训练文本集和测试文本集，两部分数据集的规模按照6:4的比例进行随机划分.

图表编号	XD0079878600 严禁用于非法目的
绘制时间	2019.07.01
作者	杨兵、聂铁铮、申德荣、寇月、于戈
绘制单位	东北大学计算机科学与工程学院、东北大学计算机科学与工程学院、东北大学计算机科学与工程学院、东北大学计算机科学与工程学院、东北大学计算机科学与工程学院
更多格式	高清、无水印（增值服务）