《表2 两种等值连接算法代价对比分析》
由于Spark broadcast join只能应用于两个表中有一个是小表的场景,所以只与目前应用较为广泛的hash join方式作对比分析。Hash join是重划分连接,所以每个节点的网络通信量为(size (RDD_B)+size(RDD_S)) /N,故所需内存空间为size(RDD_B)+size(RDD_S)。本文算法与Spark hash join算法的对比如表2所示。
图表编号 | XD0035715200 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.01 |
作者 | 张子栋、郑延斌 |
绘制单位 | 集美大学计算机工程学院、河南师范大学计算机与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |