数据清洗是大数据领域不可缺少的环节,用来发现并纠正数据中可能存在的错误,针对数据审查过程中发现的错误值、缺失值、异常值、可疑数据,选用适当方法进行“清理”,使“脏”数据变为“干净”数据。本书共分为8章:第1章主要介绍数据清洗的概念、任务和流程,数据标准化概念及数据仓库技术等;第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换等;第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等;第4章介绍Excel、Kettle、OpenRefine、DataWrangler和Hawk的安装及使用等;第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取及增量数据抽取等;第6章介绍数据清洗步?

提示:百度云已更名为百度网盘(百度盘),天翼云盘、微盘下载地址……暂未提供。