《表1 12种属性信息增益排名及具体数值》

《表1 12种属性信息增益排名及具体数值》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于数据挖掘技术的冠心病诊断预测模型》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

WEKA平台的关联规则分析要求所有属性的类别为Nominal,本文的数据集的数据类型全部为数值型,因此需要对数据进行离散化以满足Apriori算法的要求。对此本文选用WEKA平台的数据处理工具Discretize(采用默认参数)对数据进行离散化,相对于J48所选择的12个输入属性,在Apriori算法中则选择其中的6个属性作为输入属性,其原因在于,在初次使用原本的12个输入属性进行Apriori算法时所得到的结果并不符合预期,产生较多无意义规则。因此需要对数据属性进行约简,属性约简是在保证系统本身分类能力不变的前提下删除其中冗余的属性,保留起决定作用的核心属性,它是粗糙集理论中最重要的一个部分。通过知识约简,导出问题的决策或分类规则,其对于研究关联规则的知识发现有着极其重要的意义[6]。针对本数据集,本研究采用WEKA平台上的Info Gain Attribute Eval算法来评估属性的信息增益,使用Ranker算法作为检索方法对数据进行属性约简。其中信息增益是指信息熵与条件熵的差值,信息熵体现了信息的不确定程度,信息熵越大则代表无序度越大,不确定程度越大,其信息的效用值越小。与此同时条件熵体现了依据该特征分类后的不确定程度,条件熵越小则说明分类后越稳定。因此对于信息增益来说,信息增益越大则说明该特征越重要以及该特征所包含的信息量越大[7]。Info Gain Attribute Eval算法和Ranker检索算法均使用默认参数,通过以上两种算法的结合,得出了12种属性信息增益的排名以及具体数值,见表1。