《表3 各并发症数据信息的详细描述》

《表3 各并发症数据信息的详细描述》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《面向非均衡数据的糖尿病并发症预测》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

可以看到,原始数据存在数据缺失、数据错误和字段表意不明等问题,因此在数据分析之前,需要对原始数据进行处理。首先,对特征字段进行预处理(包括去除表意不明列、去除与并发症的预测无关无分析意义的字段、去除重复数据、去除错误标识的数据、去除异常的数据、改正编辑错误的性别和年龄信息、转化数据类型和填充缺失值)。其次,结合医学知识对并发症预测主要的判断类别依据“诊断”列进行并发症的划分,具体方法为首先将每名患者的合并症拆开、去重,然后依据《实用内科学》第14版中关于糖尿病及其并发症的诊断术语,将糖尿病并发症进行划分,再将“诊断”列的有效信息进行并发症归类,最后将“诊断”列信息进行统一规范书写,最终得到5 694名患者的11 132条数据。由于有合并症的存在,预测模型是将患者患有并发症的问题转化为多个二分类问题,故对每一种并发症分别进行判断。为了分析各并发症的数据特点,本文划分出的11种高并发症,如表2所示,各并发症数据信息的详细描述如表3所示。比较表3中数据信息,除了糖尿病心血管病变(D4)外,其他并发症的正负样本比例相差悬殊,比值主要集中在0.30、0.03和0.01,远远小于1,说明这些数据均属于非均衡数据。以上分析表明,本文选取的并发症数据具有一定的代表性。