《表2 样本分类分布：基于数据挖掘和RandomForest算法的助学金分类研究》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《基于数据挖掘和RandomForest算法的助学金分类研究》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

在输入模型进行训练之前，首先对各个数据集合分别进行数据预处理。主要包括构建新特征以及填充空值，去除重复数据等。另外，由于数据不同特征的量级存在较大差异，为避免模型训练过程中由于数据规模差异造成分类不准确，对数据进行Z分数标准化，使数据变为服从标准正态分布的数据。合并清洗后的数据集共有10885个样本，511个特征（包括学生ID和助学金等级），其中分类为0的样本有9325个，分类为1000的样本有741个，分类为1500的样本有465个，分类为2000的样本有354个（如表2）。样本分类不平衡。为避免对模型训练造成严重偏差，对样本数据进行SMOTE[8]采样，既保留了数据主要的特征，又有效地避免模型过拟合。采样后的数据共有26060个样本，每类样本均为6515个。再对数据采用特征工程[9]技术筛选出对助学金分类模型重要的30个特征。文章采用Sklearn包中的Extra Trees Classifier算法，这是一种基于树的预测模型，能够用来计算特征的重要程度，因此能用来去除不相关的特征。

图表编号	XD0040006800 严禁用于非法目的
绘制时间	2019.01.28
作者	王雨萌、武小军、罗雅晨
绘制单位	同济大学、同济大学、同济大学
更多格式	高清、无水印（增值服务）