《表3 分类结果参数表:利用区域化探数据推断地质体空间分布》
注:正确率:88%,错误率:12%。
为了增加作为训练集的数据点的准确性,应尽量舍弃掉那些分布在地质单元边界上的点,因为这种采样点离边界两侧的两个地质单元都很近,元素组成受两者影响,不能作为单一地质单元的训练数据。经过筛选最终确定出的数据集是一个非常不平衡的数据集,从表3可以看出,各类型的地质单元对应的采样点分布是极不均匀的,最大比例近40∶1。这种不平衡的数据分布会造成分类准确度降低,应用2.2节提到的非平衡数据处理方法,通过weka软件实现对数据进行平衡。先对少数类用SMOTE算法产生出两倍于其数量的实例,再用欠抽样方法对多数类中的样进行随机删除,最后形成了每类100个实例的平衡数据集。
图表编号 | XD00103131300 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 徐剑波、陈军林 |
绘制单位 | 中国冶金地质总局第一地质勘查院、中国地质大学(北京)地球科学与资源学院 |
更多格式 | 高清、无水印(增值服务) |