《表3 各并发症数据信息的详细描述》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《面向非均衡数据的糖尿病并发症预测》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

可以看到，原始数据存在数据缺失、数据错误和字段表意不明等问题，因此在数据分析之前，需要对原始数据进行处理。首先，对特征字段进行预处理（包括去除表意不明列、去除与并发症的预测无关无分析意义的字段、去除重复数据、去除错误标识的数据、去除异常的数据、改正编辑错误的性别和年龄信息、转化数据类型和填充缺失值）。其次，结合医学知识对并发症预测主要的判断类别依据“诊断”列进行并发症的划分，具体方法为首先将每名患者的合并症拆开、去重，然后依据《实用内科学》第14版中关于糖尿病及其并发症的诊断术语，将糖尿病并发症进行划分，再将“诊断”列的有效信息进行并发症归类，最后将“诊断”列信息进行统一规范书写，最终得到5 694名患者的11 132条数据。由于有合并症的存在，预测模型是将患者患有并发症的问题转化为多个二分类问题，故对每一种并发症分别进行判断。为了分析各并发症的数据特点，本文划分出的11种高并发症，如表2所示，各并发症数据信息的详细描述如表3所示。比较表3中数据信息，除了糖尿病心血管病变（D4）外，其他并发症的正负样本比例相差悬殊，比值主要集中在0.30、0.03和0.01，远远小于1，说明这些数据均属于非均衡数据。以上分析表明，本文选取的并发症数据具有一定的代表性。

图表编号	XD00212874800 严禁用于非法目的
绘制时间	2021.02.25
作者	邱云飞、郭蕾
绘制单位	辽宁工程技术大学软件学院、辽宁工程技术大学软件学院
更多格式	高清、无水印（增值服务）