《表1 图中所用符号说明:基于Spark的两表等值连接过程优化》
在对两大表等值连接过程中,首先要对两表中存在的大量不符合连接条件的元组进行过滤优化,降低整体数据量。针对Spark中broadcast join、shuffle hash join、simi-join等的局限性,提出了一种在Spark上作等值连接的优化方法,分为三个阶段,如图1~3所示,图中的符号如表1所示。
图表编号 | XD0035715100 严禁用于非法目的 |
---|---|
绘制时间 | 2019.02.01 |
作者 | 张子栋、郑延斌 |
绘制单位 | 集美大学计算机工程学院、河南师范大学计算机与信息工程学院 |
更多格式 | 高清、无水印(增值服务) |