本书分为基础编、分析编、挖掘编和提⾼编4部分。
基础编包括数据科学简介(第1章)和Python基础知识(第2章)两章。涉及数据科学的概念、数据科学的学习⽅法、数据科学家的概念、数据科学家的应备技能、Python与数据科学的关系、数据科学领域中常⽤的Python包。如果您对Python编程还知之甚少,第2章详细介绍了Python语⾔编程的基本知识。
分析编包括Python数据获取和数据预处理(第3章)和利⽤Python进⾏数据分析(第4章)两章。内容包括Python数据获取的各种⽅式:从⽂件中、从数据库中、从Web⽹页中获取数据,对获取的数据可采⽤Python Pandas进⾏数据清洗、数据集成与数据转换等数据预处理⼯作。利⽤Python进⾏数据分析则先介绍了Python的Numpy、Scipy包的使⽤,然后介绍了t检验、卡⽅检验、⽅差分析、主成分分析、线性回归的Python⽅法。
挖掘编包括利⽤Python进⾏数据挖掘(第5章)和利⽤Python进⾏⽂本挖掘(第6章)两章。在数据挖掘部分⾸先简单介绍了Python的Scikit-Learn数据挖掘库的安装与使⽤,然后结合实例详细介绍数据挖掘中常⽤的⼏个算法:k最近邻算法、决策树算法、朴素贝叶斯分类器、逻辑回归的、关联分析的Apriori与FP-growth算法、聚类算法与异常检测、随机森林等。在⽂本挖掘部分⾸先详细介绍⽂本挖掘的⼀般流程,以及如何使⽤Python来进⾏⽂本挖掘,然后以⽂本⾃动分类、⽂本聚类、⽂本情感分析、全⽂检索这四个应⽤为例结合Python实例做具体介绍。
提⾼编则介绍了Python在海量数据分析处理上的应⽤(第7章),⾸先介绍了⼤数据操作系统Spark的安装使⽤,然后以PageRank和推荐系统这两个典型的海量数据分析(⼤数据分析)为例来介绍Python在这⼀⽅⾯的应⽤。