《表1 smote算法处理前后对比》
基于我们得到的欺诈数据非常少这一条件,我们选择采用过采样的方法来解决数据不均衡的问题。smote处理样本不均衡时,通常按照如下步骤:(1)就少数类中每一个样本x而言,通过采取欧氏距离为标准计算它到少数类样本集Smin中所有样本之间的距离,从而能够得到其k近邻。(2)为了确定采样倍率N,需根据样本不平衡比例来设置一个采样比例。对于一个少数类样x,从其k近邻中随机选择若干个样本,并假设选择的近邻为xn。(3)对于每一个随机选出的近邻xn,按照特定的公式分别与原样本构建新的样本。经smote处理后,产生的结果如表1所示。即在处理之后,正负样本各占50%,达到均衡状态。
图表编号 | XD00120323200 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.08 |
作者 | 吴骏一 |
绘制单位 | 扬州中学教育集团树人学校 |
更多格式 | 高清、无水印(增值服务) |