《表1 图中所用符号说明:基于Spark的两表等值连接过程优化》

《表1 图中所用符号说明:基于Spark的两表等值连接过程优化》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《基于Spark的两表等值连接过程优化》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

在对两大表等值连接过程中,首先要对两表中存在的大量不符合连接条件的元组进行过滤优化,降低整体数据量。针对Spark中broadcast join、shuffle hash join、simi-join等的局限性,提出了一种在Spark上作等值连接的优化方法,分为三个阶段,如图1~3所示,图中的符号如表1所示。