《表2 样本分类分布:基于数据挖掘和RandomForest算法的助学金分类研究》

《表2 样本分类分布:基于数据挖掘和RandomForest算法的助学金分类研究》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于数据挖掘和RandomForest算法的助学金分类研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在输入模型进行训练之前,首先对各个数据集合分别进行数据预处理。主要包括构建新特征以及填充空值,去除重复数据等。另外,由于数据不同特征的量级存在较大差异,为避免模型训练过程中由于数据规模差异造成分类不准确,对数据进行Z分数标准化,使数据变为服从标准正态分布的数据。合并清洗后的数据集共有10885个样本,511个特征(包括学生ID和助学金等级),其中分类为0的样本有9325个,分类为1000的样本有741个,分类为1500的样本有465个,分类为2000的样本有354个(如表2)。样本分类不平衡。为避免对模型训练造成严重偏差,对样本数据进行SMOTE[8]采样,既保留了数据主要的特征,又有效地避免模型过拟合。采样后的数据共有26060个样本,每类样本均为6515个。再对数据采用特征工程[9]技术筛选出对助学金分类模型重要的30个特征。文章采用Sklearn包中的Extra Trees Classifier算法,这是一种基于树的预测模型,能够用来计算特征的重要程度,因此能用来去除不相关的特征。