《表1 传统数据库和大数据存储比较》

提示：宽带有限、当前游客访问压缩模式

本系列图表出处文件名：随高清版一同展现

《大数据时代档案管理新视觉》

获取高清版本忘记账户？点击这里登录

下载图表忘记账户？点击这里登录

计算机和网络发展至今，各行各业都在一定程度上利用计算机来处理各自的业务，这一过程产生了大量的数据，这也使得现代社会的信息量飞速增长。一般以数据挖掘技术为工具，为相关业务提供有力支持，从而在繁杂数据之中发掘和提炼出有价值的信息。本文对档案管理工作中大数据的应用进行了研究，探讨了相关的新理念及新技术，并指出了此类应用所面临的机遇和挑战。所谓大数据，指的是在数据量及其类型大幅增加的促使下而形成的各种规模庞大、类型丰富、信息量惊人的数据集，并且还对所产生出的数据集进行有效地信息收集、过滤去冗，然后对有价值的信息进行提取的一个技术架构与技术过程。分析大数据会发现，“4V”一体是它的主要特征，分别是数据量庞大、处理速度快、数据类型多以及数据真实。首先，数据集（Volume）非常庞大，指在采集和分析的数据量异常庞大，数据量已经从传统的TB级别飞跃到了PB级别。第二，处理速度（Velocity）快，需以获取的数据为对象展开系统分析，且要保证分析的实时性及有效性。以图像处理为例，在连续不间断的图像进行实时监控过程中，可能有效的数据只有几毫秒，因此这和传统的数据挖掘技术具有本质的不同。第三，数据类别（Variety）大，分析大数据的数据源会发现，它存在一定的不固定性，其无论是在数据种类方面，还是在格式方面，均呈现出不断增加的趋势。第四，数据的真实性（Veracity），大数据包含的那些信息是在真实环境中进行收集并加以提取的。同传统数据相比，大数据存在明显差异，需要利用到若干种处理技术，将收集到的数据转换成结构化类型，之后才能进行后续使用。具体如表1所示。

图表编号	XD006767100 严禁用于非法目的
绘制时间	2019.12.06
作者	刘必全
绘制单位	西南大学档案馆
更多格式	高清、无水印（增值服务）