《表5 样本数据统计信息》

《表5 样本数据统计信息》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种面向医学文本数据的结构化信息抽取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

本文使用真实的医学影像报告作为实验数据,其中共包含3000多条文本记录,每条记录由检查项目、主要病症和人工描述三个文本类型的属性组成.针对这些实验数据,本文首先进行了初步的统计分析,如表5所示,实验的文本数据集在各类别上分布不均.因此,本文重点筛选了样本数量占比较大的支气管镜、彩超、胃镜的影像报告数据进行实验.此外,本文还将数据分为训练文本集和测试文本集,两部分数据集的规模按照6:4的比例进行随机划分.