《表1 学习者行为特征数据离散化结果》

《表1 学习者行为特征数据离散化结果》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《网络学习行为与成绩的预测及学习干预模型的设计》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:--表示无该状态。

数据变换,即将数据变换为适合于数据挖掘的形式。包括数据泛化、数据规范化、特征构造、数据离散化。(1)数据泛化,即使用概念分层,用高层概念替换低层或原始数据。本研究对专业通过高层概念学科背景“理科、文科、艺术”实现泛化。文科包括历史文化学院、文学院、外国语学院、政治经济学院、心理学院、教育学院,理科包括化学化工学院、计算机科学学院、旅游与环境学院、数学与信息科学学院、物理学与信息技术学院、生命科学学院、新闻与传播学院(教育技术学专业),艺术包括音乐学院、美术学院、体育学院。(2)数据规范化,即将原来的度量值转换为无量纲的值。本研究选取最大—最小规范化,使连续型数据取值范围为[0-1]。(3)特征构造,即利用已知属性,构造新的属性,以便更好地刻画数据的特性,帮助数据挖掘过程。其目的是帮助提高精度和对高维数据结构的理解。但数据集的特征维数并非越高越好,维数太高容易导致维灾难,维数太低又不能有效获取数据集中的重要信息。本研究构造的特征包括学习时间跨度(如公式1)、平均每次在线学习停留时长(如公式2)、重复学习率(如公式3)、讨论交流(讨论交流与学习者的发主帖数量、点击量、被回帖数量以及回帖数量、点击量特征密切相关,且考虑到不同低维特征反映高维特征的重要性不同,为其设置不同的权重,如公式4)、学习笔记(学习笔记与学习者的学习笔记数量、更新量、点击量密切相关,且考虑到不同低维特征反映高维特征的重要性不同,为其设置不同的权重,如公式5)、总成绩(总成绩由网上作业成绩、实践技能成绩、网上考试成绩、期末笔试成绩构成,如公式6)。(4)数据离散化,决策树要求数据是分类属性,因此需要对数值进行离散化。无监督离散化方法主要有等宽离散化、等频离散化、K均值离散化,K均值性能最好,因此本研究选取K均值离散化方法,结果如表1、表2所示。