《表2 HDFS上主要的开源列存储格式对比》

《表2 HDFS上主要的开源列存储格式对比》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《HDFS存储和优化技术研究综述》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

ORC、Parquet和CarbonData是目前工业界普遍应用的Apache开源列存储格式,其中,ORC和Parquet开源较早,发展比较成熟,在大部分应用场景中都不分伯仲,且大部分查询引擎,如Spark SQL[29]、Presto[30]和Hive[25]等都对两种存储格式有很好的支持.CarbonData开源较晚,相比于ORC和Parquet,加入了大量索引和复杂数据编码的支持,更适合对延迟较低的交互式查询的需求,目前支持Hive、Presto和Spark SQL作为查询引擎并结合SparkSQL进行了深度优化.这几种流行的开源列存储格式的对比见表2.