《表3 数据扩增前后的训练集样本分布》
在训练深度学习模型时,常常会出现模型过拟合的现象,而导致这一现象出现的原因很可能就是训练样本不足或者训练样本类别不均衡。在进行MOOC作弊行为检测研究时,相对于正常样本,作弊样本往往是少之又少。基于此,本文采用序列截断扩增、平移扩增这两种数据扩增方法来增加作弊行为序列的样本量。截断扩增,具体而言就是对长度过长的作弊行为序列进行截断,将截断后的序列打上作弊的标签,从而增加作弊标签的样本量。而平移扩增是指通过时间滑窗的方式,以24 h的固定窗口前后滑动,获取一段新的作弊行为序列。实验表明,通过数据扩增后再进行模型训练,能够提高模型的泛化能力。经过数据扩增前后的训练集样本分布如下表3所示。
图表编号 | XD00212322900 严禁用于非法目的 |
---|---|
绘制时间 | 2021.01.01 |
作者 | 万子云、陈世伟、秦斌、聂伟、徐明 |
绘制单位 | 深圳大学电子与信息工程学院、深圳大学机电与控制工程学院、深圳大学信息中心、深圳大学电子与信息工程学院、深圳大学信息中心 |
更多格式 | 高清、无水印(增值服务) |