《表2 模型分类结果:融合局部语义和全局结构信息的健康问句分类》
(2)数据分布不平衡。由表1可知,训练数据中诊断类问题有1 722条,治疗类数据有2 343条,远远多于流行病学、健康生活方式、择医三类,且治疗类问题的最大长度达到了2 098个字,而平均长度只有121个字。各类的数据分布严重不平衡,影响了分类器的训练效果。
图表编号 | XD00139888600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.04.20 |
作者 | 张志昌、张治满、张珍文 |
绘制单位 | 西北师范大学计算机科学与工程学院、西北师范大学计算机科学与工程学院、西北师范大学计算机科学与工程学院 |
更多格式 | 高清、无水印(增值服务) |