《表4 集成(Bagging)和迭代(Boosting)方法的比较》

《表4 集成(Bagging)和迭代(Boosting)方法的比较》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于大数据技术的个人信用动态评价指标体系研究——基于社会资本视角》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从表3可以看出,RF与其他3种算法(ANN、XGBoost和C5.0)最本质区别是:RF应用的是集成(Bagging)方法,而其他3种算法则对应的是迭代(Boosting)方法。从本质上来说,Bagging和Boosting都是将已有的分类或回归算法通过一定方式进行组合,进而形成一个性能更加强大的分类器。两者具体的区别如表4所示。本文没有使用RF而是使用ANN、XGBoost和C5.0算法进行性能测试,其原因主要有两点:第一,RF使用Bagging方法进行集成,通过均匀抽样,每个样例的权重相等,所有预测函数的权重也相等,各轮训练集之间是独立的,每个分类器无权重变化。在大数据背景下,个人的信用数据是不断变化的,每个分类器的预测精度也是随着时间的推演,随着数据的波动而产生不同的变化,对每个分类器都采用均衡的权重显然不能很好适应这种动态变化。而Boosting方法则通过提高那些在前一轮被弱分类器分错样例的权值,减小前一轮分对样例的权值,从而使得分类器对误分的数据有较好的效果。第二,Bagging方法下的RF不需要通过不断的迭代来更新每个样本以及子分类器的权重,这反而使RF具备了简单、不容易出现过拟合的优点,同时有放回的选取训练集使得机会更加均等,筛选出的指标更具客观性。传统的指标筛选处理大多使用主成分分析和因子分析,但其本质都是对变量进行组合,会形成新的变量并且要经历一个解释阶段。而在大数据背景下,个人信用数据具有数据维度大、数据结构复杂的特点,要一一进行合并解释过于复杂,因此选择使用RF通过预测变量对分类精确度的影响程度对指标进行筛选。