《表3 在高中入学数据上不同方法所选决定因素的参数估计以及在5000次实验中被选中的频率》
本文在该数据上分别拟合带Lasso惩罚的LR、SVM和0-1损失三种分类方法,它们挑选的变量回归系数见表3。表3中的“频率”为三种方法识别出的重要变量在重抽样的子样本上被不同方法识别出来的频率,反映了每一个重要变量的稳定性,具体计算方法参考下一节。0-1损失下Fabs算法的解路径以及所选的最优调节参数见图2,最优的调节参数λt=298.63。可以发现,不同方法所挑选的决定因素数量并不相同。具体地,0-1损失法、SVM和LR分别挑出了11个、54个和10个决定因素。其中,SVM挑出的变量个数较多(表3显示了SVM频率最大的前16个变量),因而其模型的可解释性最弱。三种方法所挑出的决定因素存在一定的交集。有趣的是,在这些相同变量上,不同方法给出的系数估计符号是一致的。
图表编号 | XD00226307500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.09.25 |
作者 | 史兴杰、王赛旎、李扬 |
绘制单位 | 中国人民大学 |
更多格式 | 高清、无水印(增值服务) |