《表1 RTG数据集概念定义表》
注:+代表正类,-代表负类
RTG原始数据集共包含40维连续属性,4个原始类别,共计42000个样本。在RTG数据集中,第3个原始类仅包含2397个样本。在RTG原始数据集中并未包含概念漂移,为了产生概念漂移,每次从每个原始类中分别随机抽取一定数量的样本,并为不同的原始类按照表1的要求重新标注正类和负类的类别标签。由于不同次抽取的属于同一个原始类的样本仅有类别标签发生了变化,即p(y|x)发生了变化,从而产生了概念漂移。RTG数据集生成的概念漂移数据集中共包含4个概念,为了使数据流中包含更多的概念,按照表1的顺序将每个新概念依次再重复产生两次(样本不重复),共产生12个概念。需要说明的是:第12个概念中的样本由前11个概念随机抽取后剩余的样本组成。在生成第12个概念时,由于第3个原始类包含的数据量较少,因此该概念包含每个原始类各197个样本,故第12个概念仅包含788个样本。其他概念中,每个概念均包含800个样本,包含每个原始类各200个样本,所有的样本均为随机选择。
图表编号 | XD0035512000 严禁用于非法目的 |
---|---|
绘制时间 | 2019.01.15 |
作者 | 秦一休、文益民、何倩 |
绘制单位 | 桂林电子科技大学计算机与信息安全学院、桂林电子科技大学计算机与信息安全学院、广西可信软件重点实验室桂林电子科技大学、桂林电子科技大学计算机与信息安全学院 |
更多格式 | 高清、无水印(增值服务) |