《表1 图书馆用户集成数据》

《表1 图书馆用户集成数据》   提示:宽带有限、当前游客访问压缩模式
本系列图表出处文件名:随高清版一同展现
《大数据挖掘技术的图书馆移动用户行为分析》


  1. 获取 高清版本忘记账户?点击这里登录
  1. 下载图表忘记账户?点击这里登录

现阶段的数据抽取方式主要包括全量抽取和增量抽取。本文提出的分析方法,在全量抽取的基础上,增量抽取insert,update或者delete数据[5]。通常,在这些庞大的用户信息数据中,包含有不完整、质量差的基本信息数据,从而无法从这些数据中获取有价值的信息。为了避免因数据采集错误、计算错误等失误造成噪声、不一致且重复数据的出现,需对这些数据进行过滤清洗,实现对数据的预处理[6-7]。首先将获取的数据清洗,通过清洗发现、纠正数据集合中的可识别错误,同时检查数据是否属性一致、真实有效。对于存在问题的集合,需要填补遗漏数据、消除异常数据以及平滑噪声数据,分别抽取、整合集合中的清洗数据,通过转换将数据集合统一格式,去除集合中冗余等数据,合并数据意义一致或属性类别相似的数据,再将数据集合到一个新的数据集中,实现对清洗数据的集成[8]。集成结果如表1所示。