《表2 两种等值连接算法代价对比分析》

《表2 两种等值连接算法代价对比分析》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Spark的两表等值连接过程优化》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

由于Spark broadcast join只能应用于两个表中有一个是小表的场景,所以只与目前应用较为广泛的hash join方式作对比分析。Hash join是重划分连接,所以每个节点的网络通信量为(size (RDD_B)+size(RDD_S)) /N,故所需内存空间为size(RDD_B)+size(RDD_S)。本文算法与Spark hash join算法的对比如表2所示。