《表4 DiffNodeset结构与N-list结构对比》
![《表4 DiffNodeset结构与N-list结构对比》](http://bookimg.mtoou.info/tubiao/gif/JSYJ202103009_16500.gif)
本系列图表出处文件名:随高清版一同展现
《基于MapReduce的并行频繁项集挖掘算法研究》
从图3可以看出,在三个数据集上MRPrePost和PFIMD算法所消耗的内存大小明显小于LBPFP和PFP-Growth算法,这是由于MRPrePost和PFIMD算法在挖掘频繁项集时只需要根据PPC-Tree树生成频繁1项集的N-list结构,之后将PPC-Tree树从内存中删除,节省了大量的内存空间,而对于LBPFP和PFP-Growth算法在挖掘频繁项集时需要递归构造条件模式子树,所有的条件模式子树都需要保留在内存中。同时相较于MRPrePost,PFIMD算法在对三个数据集挖掘频繁项集时所使用的内存空间更少,尤其在susy数据集上,其内存使用量比MRPrePost算法减少了22.7%。一方面是因为PFIMD算法使用双向搜索策略,每组在挖掘时只需要将以当前项为前缀的频繁项集保存在内存中,极大地降低了内存占用量,而且采用动态分组策略LBSBDG,均匀地将频繁1项集分配到各个计算节点中减小了各节点中子PPC-Tree树的规模;另一方面由于PFIMD算法采用DiffNodeset结构,避免了在数据集上N-list基数较大的问题,如表4所示,本文对susy、webdocs、kosarak三个数据集的频繁项集的DiffNodeset结构和N-list结构基数进行了统计,从表中可以看出在各个数据集上频繁项集的DiffNodeset结构比N-list结构的规模小,尤其对于密集型数据集susy来说DiffNodeset结构的优势更明显。
图表编号 | XD00202147800 严禁用于非法目的 |
---|---|
绘制时间 | 2021.03.05 |
作者 | 刘卫明、张弛、毛伊敏 |
绘制单位 | 江西理工大学信息工程学院、江西理工大学信息工程学院、江西理工大学信息工程学院 |
更多格式 | 高清、无水印(增值服务) |