《表3 随机森林分类器的十折交叉验证法结果》

《表3 随机森林分类器的十折交叉验证法结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于图像相减和随机森林的AST3巡天暂现源及变源搜寻方法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

我们选择随机森林同上述主成分分析法结合使用.随机森林由Breiman[18]于2001年提出,是一种有监督学习算法,其核心是自助采样法和决策树的集成.自助采样通过有放回地从训练集中随机抽取不同的样本组成多个不同的训练集,这种随机性可以避免出现过拟合,同时赋予模型较强的抗噪能力;随机森林模型中包括了许多独立工作的决策树,各个决策树各自根据输入样本生成预测,最后再结合各个决策树的预测生成单预测与单一决策树相比,随机森林输入的是训练集的子集,其对应的每一棵子树同决策树相比要浅,这也使得其不容易出现过拟合.决策树的结点依据选择的多个特征进行分裂使得模型的准确率得到提升.我们借助Python机器学习库scikit-learn构建和训练随机森林模型,子树的数量设置为1000,训练样本的数量共10200个.我们使用十折交叉验证法评估模型的准确性和泛化能力.K折交叉验证法(K-fold cross-validation)是指将训练集分割成K个子样本,选取一个子样本用作验证模型的数据,其他K-1个样本用来训练模型.交叉验证重复K次,使得每个子样本验证一次,对K次验证的结果做平均最终得到一个单一估测.我们将训练集分割成10个子样本,做十折交叉验证,并绘制对应的受试者工作特征曲线(receiver operating characteristic curve,ROC cureve)及混淆矩阵(confusion matrix),结果如图8、表3、表4所示.最后我们用训练得到的模型对5万多个源的残差图像进行了预测,挑选出多次被判定为真源,同时光度相对模板时刻有一定起伏的源,最后我们一共得到1721颗变星候选体.