《表2 预处理后的林分数据》

《表2 预处理后的林分数据》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Apriori算法的浙西杉木用材林立地及生长因子关联分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在数据挖掘之前,对原始数据进行数据清洗和数据转换。在本研究中,1.2节中的剔除异常数据和无效数据即数据清洗,对清洗后的不同量纲数据进行归一化处理即数据转换。本研究数据包括定性因子和定量因子,定性因子包含多个属性维度,定量因子则为连续性数据。对定性因子按照类别进行分类,对定量连续性数据进行离散化处理。数据具体转换过程如下:地貌分为低山(A1)、丘陵(A2);海拔分为10~200 m(B1),201~400 m (B2),401~570 m (B3)3组;坡位上、中、下、谷、全分别用C1~C5标识;坡向东、南、西、北、东北、东南、西北、西南分别用D1~D8标识;坡度级平、缓、斜、陡、急、险分别用E1~E6标识;土壤分为红壤(F1)、黄壤(F2);土壤质地分为砂土(G1)、壤土(G2)、黏土(G3);土层厚度分为厚(H1)、中(H2)、薄(H3);腐殖质厚度分为厚(I1)、中(I2)、薄(I3);林下植被种类分为草丛(J1)、草灌(J2)、灌丛(J3)、无植被(J4);林下植被高度分为0~50 cm (K1),51~85 cm (K2);林下植被覆盖度分为0~30%(L1),31%~60%(L2),61%~90%(L3)。选用最具代表性的胸径、树高和蓄积3个林分生长因子作为关联规则事务项,作离散化处理。根据收集的数据范围,将胸径分为5.0~10.0 cm (M1),10.1~15.0cm (M2),15.1~20.0 cm (M3);将树高分为3.0~6.0 m (N1),6.1~9.0 m (N2),9.1~12.0 m (N3),12.1~15.0 m (N4),15.1~18.0 m (N5);将单位蓄积分为20.0~50.0 m3 (O1),50.1~80.0 m3 (O2),80.1~110.0 m3 (O3),110.1~140.0 m3 (O4),140.1~170.0 m3 (O5)。将林分年龄也考虑其中,根据浙江省森林资源规划设计调查规程,对浙西杉木用材林进行龄组划分,≤10 a(幼龄林,P1),11~20 a(中龄林,P2),21~25 a(近成熟林,P3)和26~35 a(成熟林,P4)和>35 a(过熟林,P5)。根据构建的地位指数模型,计算得到杉木地位指数为8~18,作为关联分析事务项,将16和18指数的立地定为好,用Q1表示;12和14指数立地为中,用Q2表示;8和10指数立地为差,用Q3表示。表2是依据分类进行预处理的部分数据,其中每行数据可以理解成Apriori算法中的一个事务。本研究首先使用Apriori算法计算出频繁项集及支持度,再根据置信度计算公式得到项集与项集之间的规则。