《表2 四个数据分析应用及其数据规模》

《表2 四个数据分析应用及其数据规模》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于累计工作量的在线大数据分析作业调度算法》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

测试负载:使用Apach Spark来生成运行在YARN上的DAG作业。评估中使用的作业来源于如下数据分析应用:Word Count、TPC-H基准、迭代机器学习以及PageRank。如表2所示,对于每一类工作负载,数据集大小仿照真实生产环境的集群按比例缩放(Yahoo![8]和Facebook[10])。对于作业的分布,设置46%、40%和14%分别为小型、中型、大型的作业,这与实际应用中作业的分布相似[10]。