《表6 三类样本数据集的句子长度统计》
针对选取的这3类样本数据集,本文从句型的角度分析了医学报告文本的句子特征.表6统计了支气管镜、彩超和胃镜的报告文本中的句子长度情况,从中可以看出医学上的文本数据主要以短句为主,句子的长度绝大部分都不超过10个词,且主要集中在5个词以内,平均占比达到了84.73%,而在胃镜的检查报告中,使用短句最多,5个词以内的短句达到了91.67%,这说明医学领域的文本描述受书写习惯的影响较大,往往为了表述上的简洁明确而弱化了中文自然语言的语法规则,从而增加了语义分析的难度.
图表编号 | XD0079878700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.07.01 |
作者 | 杨兵、聂铁铮、申德荣、寇月、于戈 |
绘制单位 | 东北大学计算机科学与工程学院、东北大学计算机科学与工程学院、东北大学计算机科学与工程学院、东北大学计算机科学与工程学院、东北大学计算机科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |