《表1 RTG数据集概念定义表》

《表1 RTG数据集概念定义表》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《概念漂移数据流分类中的多源在线迁移学习算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录
注:+代表正类,-代表负类

RTG原始数据集共包含40维连续属性,4个原始类别,共计42000个样本。在RTG数据集中,第3个原始类仅包含2397个样本。在RTG原始数据集中并未包含概念漂移,为了产生概念漂移,每次从每个原始类中分别随机抽取一定数量的样本,并为不同的原始类按照表1的要求重新标注正类和负类的类别标签。由于不同次抽取的属于同一个原始类的样本仅有类别标签发生了变化,即p(y|x)发生了变化,从而产生了概念漂移。RTG数据集生成的概念漂移数据集中共包含4个概念,为了使数据流中包含更多的概念,按照表1的顺序将每个新概念依次再重复产生两次(样本不重复),共产生12个概念。需要说明的是:第12个概念中的样本由前11个概念随机抽取后剩余的样本组成。在生成第12个概念时,由于第3个原始类包含的数据量较少,因此该概念包含每个原始类各197个样本,故第12个概念仅包含788个样本。其他概念中,每个概念均包含800个样本,包含每个原始类各200个样本,所有的样本均为随机选择。