在这本实用书籍中,四位Cloudera公司的数据科学家讲解了一系列自包含模式,用于在Spark中进行大规模数据分析。本书作者们把Spark、统计原理和现实世界中的数据集合放到一起,通过实例教你如何解决数据分析问题。你将从Spark及其生态系统的介绍开始,然后深入运用标准技巧——归类、聚合过滤及异常检测等的模式,这些技巧被用于生物基因、安全和金融等行业。如果你对机器学习和统计学有初步了解,使用Java、Python或者Scala编程,就会发现这些模式对于你的数据分析应用程序会非常有用。

提示:百度云已更名为百度网盘(百度盘),天翼云盘、微盘下载地址……暂未提供。