《表4 DiffNodeset结构与N-list结构对比》

《表4 DiffNodeset结构与N-list结构对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于MapReduce的并行频繁项集挖掘算法研究》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

从图3可以看出,在三个数据集上MRPrePost和PFIMD算法所消耗的内存大小明显小于LBPFP和PFP-Growth算法,这是由于MRPrePost和PFIMD算法在挖掘频繁项集时只需要根据PPC-Tree树生成频繁1项集的N-list结构,之后将PPC-Tree树从内存中删除,节省了大量的内存空间,而对于LBPFP和PFP-Growth算法在挖掘频繁项集时需要递归构造条件模式子树,所有的条件模式子树都需要保留在内存中。同时相较于MRPrePost,PFIMD算法在对三个数据集挖掘频繁项集时所使用的内存空间更少,尤其在susy数据集上,其内存使用量比MRPrePost算法减少了22.7%。一方面是因为PFIMD算法使用双向搜索策略,每组在挖掘时只需要将以当前项为前缀的频繁项集保存在内存中,极大地降低了内存占用量,而且采用动态分组策略LBSBDG,均匀地将频繁1项集分配到各个计算节点中减小了各节点中子PPC-Tree树的规模;另一方面由于PFIMD算法采用DiffNodeset结构,避免了在数据集上N-list基数较大的问题,如表4所示,本文对susy、webdocs、kosarak三个数据集的频繁项集的DiffNodeset结构和N-list结构基数进行了统计,从表中可以看出在各个数据集上频繁项集的DiffNodeset结构比N-list结构的规模小,尤其对于密集型数据集susy来说DiffNodeset结构的优势更明显。