《表1 传统数据库和大数据存储比较》

《表1 传统数据库和大数据存储比较》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《大数据时代档案管理新视觉》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

计算机和网络发展至今,各行各业都在一定程度上利用计算机来处理各自的业务,这一过程产生了大量的数据,这也使得现代社会的信息量飞速增长。一般以数据挖掘技术为工具,为相关业务提供有力支持,从而在繁杂数据之中发掘和提炼出有价值的信息。本文对档案管理工作中大数据的应用进行了研究,探讨了相关的新理念及新技术,并指出了此类应用所面临的机遇和挑战。所谓大数据,指的是在数据量及其类型大幅增加的促使下而形成的各种规模庞大、类型丰富、信息量惊人的数据集,并且还对所产生出的数据集进行有效地信息收集、过滤去冗,然后对有价值的信息进行提取的一个技术架构与技术过程。分析大数据会发现,“4V”一体是它的主要特征,分别是数据量庞大、处理速度快、数据类型多以及数据真实。首先,数据集(Volume)非常庞大,指在采集和分析的数据量异常庞大,数据量已经从传统的TB级别飞跃到了PB级别。第二,处理速度(Velocity)快,需以获取的数据为对象展开系统分析,且要保证分析的实时性及有效性。以图像处理为例,在连续不间断的图像进行实时监控过程中,可能有效的数据只有几毫秒,因此这和传统的数据挖掘技术具有本质的不同。第三,数据类别(Variety)大,分析大数据的数据源会发现,它存在一定的不固定性,其无论是在数据种类方面,还是在格式方面,均呈现出不断增加的趋势。第四,数据的真实性(Veracity),大数据包含的那些信息是在真实环境中进行收集并加以提取的。同传统数据相比,大数据存在明显差异,需要利用到若干种处理技术,将收集到的数据转换成结构化类型,之后才能进行后续使用。具体如表1所示。