《表2 特征指标重要度排序》
最后,本文采用2种集成学习算法获取重要指标。方法1为梯度提升决策树-递归特征消除算法(Gradient Boosting Decision Tree-recursive Feature Elimination,GBDT-RFE),其中GBDT是一种常用的Boosting算法,能根据基学习器的表现对训练样本分布进行调整,使得先前的基学习器做错的训练样本在后续获得更多关注,最终将N个基学习器进行加权结合,得到最优分类结果[30]。方法2为随机森林-递归特征消除算法(Random Forest-recursive Feature Elimination,RF-RFE),随机森林属于Bagging方法的一种,它在决策树集成的基础上在训练过程中进一步引入了随机属性选择,输出的指标类别由各棵树投票而定。GBDT-RFE和RF-RFE算法分别采用GBDT和RF分析指标的重要性,得到指标的重要度排序,进而通过RFE方法遍历选择重要度高的特征。本文使用5折交叉验证,2种算法的特征个数与交叉验证正确分类分值的关系如图5(b)所示。可以发现,特征个数N=21时,GBDT-RFE和RF-RFE的分类正确值同时接近最优,且两者所获重要度排名前21的指标有80%以上的重合率,重要度排序结果基本一致。因此,本文选择了平均正确分类分值较高的GBDT-RFE获得前21个指标,如表2所示。
图表编号 | XD00228567800 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.01 |
作者 | 孙剑、张一豪、王俊骅 |
绘制单位 | 同济大学道路与交通工程教育部重点实验室、同济大学道路与交通工程教育部重点实验室、同济大学道路交通安全与环境教育部工程研究中心 |
更多格式 | 高清、无水印(增值服务) |