《表4 在6个数据集上实验指标的对比》

《表4 在6个数据集上实验指标的对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于随机森林和投票机制的大数据样例选择算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

实验结果如表4。由表4实验结果发现,在人工数据集和UCI数据集上,MR-RF-IS和Spark-RF-IS算法在测试精度和选择比上数值近似相同,是因为MR-RF-IS和Spark-RF-IS在算法结构和运行逻辑上基本秉承同种思想,算法在执行样例选择时所选择的样例子集也是大致相同的,选择出的样例子集重要程度也近乎相似;但两种算法的在不同的平台上所运行的时间有着很大的差距,造成这种差距的主要原因是在Map Reduce和Spark大数据处理平台上对数据的处理采取截然不同的策略。基于随机森林的大数据样例选择在大数据计算平台上算法主要在I/O操作和中间数据传输上消耗过多时间,其运行时间T可以分为文件读取时间Tread、中间数据传输时间Ttran、中间数据排序时间Tsort和文件输出时间Twrite;其中,文件读取时间Tread受文件读取速度和文件的影响,文件输出时间Twrite受文件输出速度和文件数量的影响。在Map Reduce和Spark平台上,文件的输入输出速度和数据的数量的差异主要是受到不同平台的运行机制和读写方法影响,所以只对中间数据传输时间Ttran和中间数据排序时间Tsort造成的影响进行分析。