《表4 随机森林分类器的混淆矩阵》
本系列图表出处文件名:随高清版一同展现
《基于图像相减和随机森林的AST3巡天暂现源及变源搜寻方法》
我们选择随机森林同上述主成分分析法结合使用.随机森林由Breiman[18]于2001年提出,是一种有监督学习算法,其核心是自助采样法和决策树的集成.自助采样通过有放回地从训练集中随机抽取不同的样本组成多个不同的训练集,这种随机性可以避免出现过拟合,同时赋予模型较强的抗噪能力;随机森林模型中包括了许多独立工作的决策树,各个决策树各自根据输入样本生成预测,最后再结合各个决策树的预测生成单预测与单一决策树相比,随机森林输入的是训练集的子集,其对应的每一棵子树同决策树相比要浅,这也使得其不容易出现过拟合.决策树的结点依据选择的多个特征进行分裂使得模型的准确率得到提升.我们借助Python机器学习库scikit-learn构建和训练随机森林模型,子树的数量设置为1000,训练样本的数量共10200个.我们使用十折交叉验证法评估模型的准确性和泛化能力.K折交叉验证法(K-fold cross-validation)是指将训练集分割成K个子样本,选取一个子样本用作验证模型的数据,其他K-1个样本用来训练模型.交叉验证重复K次,使得每个子样本验证一次,对K次验证的结果做平均最终得到一个单一估测.我们将训练集分割成10个子样本,做十折交叉验证,并绘制对应的受试者工作特征曲线(receiver operating characteristic curve,ROC cureve)及混淆矩阵(confusion matrix),结果如图8、表3、表4所示.最后我们用训练得到的模型对5万多个源的残差图像进行了预测,挑选出多次被判定为真源,同时光度相对模板时刻有一定起伏的源,最后我们一共得到1721颗变星候选体.
图表编号 | XD00112111700 严禁用于非法目的 |
---|---|
绘制时间 | 2019.09.01 |
作者 | 黄天君、孙天瑞、胡镭、宁宗军、吴雪峰、王力帆、王晓峰、朱镇熹、UDDIN Ashraf Syed、ASHLEY Charles Brewster Michael |
绘制单位 | 中国科学院紫金山天文台、中国科学技术大学天文与空间科学学院、中国科学院紫金山天文台、中国科学技术大学天文与空间科学学院、中国科学院紫金山天文台、中国科学技术大学天文与空间科学学院、中国科学院紫金山天文台、中国科学院紫金山天文台、George P. and Cynthia Woods Mitchell Institute for Fundamental Physics & Astronomy, Texas A.& M.University, Department of Physics and Astrono |
更多格式 | 高清、无水印(增值服务) |