《表2 HDFS上主要的开源列存储格式对比》
ORC、Parquet和CarbonData是目前工业界普遍应用的Apache开源列存储格式,其中,ORC和Parquet开源较早,发展比较成熟,在大部分应用场景中都不分伯仲,且大部分查询引擎,如Spark SQL[29]、Presto[30]和Hive[25]等都对两种存储格式有很好的支持.CarbonData开源较晚,相比于ORC和Parquet,加入了大量索引和复杂数据编码的支持,更适合对延迟较低的交互式查询的需求,目前支持Hive、Presto和Spark SQL作为查询引擎并结合SparkSQL进行了深度优化.这几种流行的开源列存储格式的对比见表2.
图表编号 | XD00137378600 严禁用于非法目的 |
---|---|
绘制时间 | 2020.01.01 |
作者 | 金国栋、卞昊穹、陈跃国、杜小勇 |
绘制单位 | 数据工程与知识工程教育部重点实验室(中国人民大学)、中国人民大学信息学院、数据工程与知识工程教育部重点实验室(中国人民大学)、中国人民大学信息学院、数据工程与知识工程教育部重点实验室(中国人民大学)、大数据系统软件国家工程实验室(北京理工大学)、数据工程与知识工程教育部重点实验室(中国人民大学)、中国人民大学信息学院 |
更多格式 | 高清、无水印(增值服务) |