《表2 平衡后的数据集类型及其样本数量》
因本文中使用的Moore数据集中GAME类型与其他类型样本量差距太大,即使使用Borderline-SMOTE算法也无法避免样本重叠,所以在进行实验时,剔除了标记为GAME类型的样本,然后选取WWW类型部分样本和其他类型的全部样本组成新的训练数据集,采用Borderline-SMOTE算法对其进行平衡化处理.平衡后的数据集各类型及其样本数量如表2所示.因平衡后的数据集样本数量不足百万,属于小数量数据集,所以将数据集的80%作为训练数据集,剩余的20%作为测试数据集.
图表编号 | XD00182337000 严禁用于非法目的 |
---|---|
绘制时间 | 2020.07.15 |
作者 | 王宣立、张安琳、黄道颖、董帅、刘江豪 |
绘制单位 | 郑州轻工业大学计算机与通信工程学院、郑州轻工业大学工程训练中心、郑州轻工业大学计算机与通信工程学院、郑州轻工业大学计算机与通信工程学院、郑州轻工业大学计算机与通信工程学院 |
更多格式 | 高清、无水印(增值服务) |