《表1 实验方案及样本容量》

《表1 实验方案及样本容量》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于随机森林算法的水土流失影响因子重要性分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

根据国家土壤侵蚀强度分级标准[29],土壤侵蚀强度等级分为无流失、轻度、中度、重度、极强和剧烈6类。由于研究区大部分像元为无流失类别,且随着土壤侵蚀强度的增加像元数骤减,为了使各类别具有相同的样本量,本文将土壤侵蚀强度类别以是否发生水土流失分为无流失与有流失两大类,并将发生水土流失区域根据等级分为轻中度、中度以上两类。根据分类情况设制了五套实验方案(表1):分别为无-有、无-轻中度、无-中度以上、轻中度-中度以上、无-轻中度-中度以上。无-有方案主要是为了分析在判断是否发生水土流失时各因子的重要性,初步确定RF在水土流失因子重要性判断中的合理性和可行性。其他方案则是为了分析导致水土流失程度存在差异的各因子的重要性,并与无-有方案中因子重要性结果进行对比。其中由于无-有方案中,水土流失分类较为笼统,数据总量较大,故以分层等比例随机抽样的方式在数据总量中分别抽取无流失样本和有流失样本各10万个。而轻中度、中度以上是在发生水土流失区域进行的二级划分,数据总量相对较少,故相关方案中的各分层样本容量分别为7万个。本文的样本容量远远高于其他同类研究,主要是由于随机森林具有样本可容许量大的优势。较大的样本不仅可以减小异常值对结果的影响,而且还可消除样本容量过小导致样本对总体缺乏足够的代表性,从而难以保证推算结果的精确度和可靠性的问题。