《表6 三类样本数据集的句子长度统计》

《表6 三类样本数据集的句子长度统计》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种面向医学文本数据的结构化信息抽取方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

针对选取的这3类样本数据集,本文从句型的角度分析了医学报告文本的句子特征.表6统计了支气管镜、彩超和胃镜的报告文本中的句子长度情况,从中可以看出医学上的文本数据主要以短句为主,句子的长度绝大部分都不超过10个词,且主要集中在5个词以内,平均占比达到了84.73%,而在胃镜的检查报告中,使用短句最多,5个词以内的短句达到了91.67%,这说明医学领域的文本描述受书写习惯的影响较大,往往为了表述上的简洁明确而弱化了中文自然语言的语法规则,从而增加了语义分析的难度.