《表3 数据扩增前后的训练集样本分布》

《表3 数据扩增前后的训练集样本分布》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于深度学习的MOOC作弊行为检测研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在训练深度学习模型时,常常会出现模型过拟合的现象,而导致这一现象出现的原因很可能就是训练样本不足或者训练样本类别不均衡。在进行MOOC作弊行为检测研究时,相对于正常样本,作弊样本往往是少之又少。基于此,本文采用序列截断扩增、平移扩增这两种数据扩增方法来增加作弊行为序列的样本量。截断扩增,具体而言就是对长度过长的作弊行为序列进行截断,将截断后的序列打上作弊的标签,从而增加作弊标签的样本量。而平移扩增是指通过时间滑窗的方式,以24 h的固定窗口前后滑动,获取一段新的作弊行为序列。实验表明,通过数据扩增后再进行模型训练,能够提高模型的泛化能力。经过数据扩增前后的训练集样本分布如下表3所示。