《表5 对比不同划分方法的正确率》

《表5 对比不同划分方法的正确率》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《一种可用于分类型属性数据的多变量决策树算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:加粗表示最好的结果.

为了验证属性加权、聚类以及特殊处理分类型属性的作用,实现了8个不同的结点划分方法产生决策树(见表5).算法0不进行聚类,直接使用各个类别的中心作为锚点,分类型属性使用众数代替数值属性的均值作为锚点向量的分量,计算样本到锚点距离时,各个属性上的距离使用式(4)计算得出并求和;算法1与算法0的不同之处是,使用Relief-F计算每个属性的权重,删除小于最大权重1/5的属性后,样本和锚点距离使用权重向量和式(4)计算得到的距离向量的点积;算法2与算法0的区别在于加入了聚类过程,k-modes算法用于分类数据集,k-prototypes算法用于混合型数据集;算法3结合了算法1和算法2;算法4~7分别对应算法0~3,分类型属性上关于簇心和样本到簇心距离计算采用2.2节描述的方法.算法7就是本文提出的算法.实验中生成的决策树均采用最小父母数为5的预剪枝策略,并对生成的决策树使用悲观剪枝算法进行剪枝操作.实验报告的正确率为10次10折交叉验证的平均值.