《表1 学生去图书馆次数以及平均绩点》
针对实际情况,对数据库中学生行为数据进行预处理后,通过C4.5算法对学生行为数据进行挖掘分析。如:m个样本的连续特征A有m个,从小到大排列为a1,a2,...,am,则C4.5取相邻两样本值的平均数,共取得m-1个划分点。其中第i个划分点Ti表示为:。分别计算以该点作为二元分类点时的信息增益。选择信息增益最大的点作为该连续特征的二元离散分类点。如取到的增益最大的点为at,,则小于at的值为类别1,大于at的值为类别2,这样就做到了连续特征的离散化。要注意的是,与离散属性不同的是,如果当前节点为连续属性,则该属性后面还可以参与子节点的产生选择过程。表1、表2分别给出了与学生相关数据,具体计算步骤如下。
图表编号 | XD00192230500 严禁用于非法目的 |
---|---|
绘制时间 | 2020.08.01 |
作者 | 陈馨瑶 |
绘制单位 | 浙江农林大学信息工程学院 |
更多格式 | 高清、无水印(增值服务) |