《表3 Hive存储格式及特点》
Hive本身不提供数据存储格式。其可以利用其他存储数据的格式,存储格式有5种:TextFile、SequenceFile、RCFile、ORCFile和Parquet。其中TextFile和SequenceFile为行式存储,Parquet为列式存储,RCFile及改进版本的ORCFile为行列式存储。行式存储跟传统关系型数据库一样,将数据记录分条存储。列式存储则是将数据按列分割后加入识别标记进行存储,可以实现跨越式查询。行列式存储则是综合以上两种方案,按行分割并按列存储。针对以上多种数据存储格式进行恢复数据块的识别,对于后期数据记录的提取具有决定性的作用。Hive存储格式的具体特点如表3所示。
图表编号 | XD009247800 严禁用于非法目的 |
---|---|
绘制时间 | 2019.10.20 |
作者 | 罗文华、王志铭 |
绘制单位 | 中国刑事警察学院网络犯罪侦查系、中国刑事警察学院网络犯罪侦查系 |
更多格式 | 高清、无水印(增值服务) |