Python和PySpark数据分析

正版全新

作者: (加)乔纳森·里乌
出版社: 清华大学出版社
ISBN: 9787302645368

出版时间: 2023-10
装帧: 平装
开本: 16开

作者: (加)乔纳森·里乌
出版社: 清华大学出版社

ISBN: 9787302645368
出版时间: 2023-10

装帧: 平装
开本: 16开

售价 81.70 6.9折

定价￥118.00

品相全新

优惠

运费

本店暂时无法向该地区发货

延迟发货说明

时间：

说明：

上书时间2024-05-02

数量: 库存10件

立即购买加入购物车收藏

卖家超过10天未登录

商品详情
店铺评价

手机购买

微信扫码访问

商品分类：

教材教辅考试 > 教材 > 大学教材 > 计算机与互联网

货号：

1203112730

商品描述：

作者简介
作为一家数据驱动软件公司的ML总监，Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

目录
第1章介绍1

1.1什么是PySpark1

1.1.1从头开始：什么是Spark2

1.1.2PySpark=Spark+Python3

1.1.3为什么选择PySpark3

1.2PySpark的工作原理5

1.2.1使用集群管理器进行物理规划6

1.2.2懒惰的主管成就工厂的高效8

1.3你将从本书学到什么11

1.4我们将如何开始12

1.5本章小结13

第Ⅰ部分介绍：PySpark的第一步

第2章使用PySpark编写的第一个数据处理程序17

2.1设置pysparkshell18

2.1.1SparkSession入口点20

2.1.2配置PySpark的日志级别21

2.2映射程序22

2.3采集和探索：为数据转换奠定基础23

2.3.1用spark.read将数据读入数据帧24

2.3.2从结构到内容：使用show()探索数据帧27

2.4简单的列转换：将句子拆解为单词列表29

2.4.1使用select()选择特定的列30

2.4.2转换列：将字符串拆分为单词列表31

2.4.3重命名列：alias和withColumnRenamed33

2.4.4重塑数据：将list分解成行34

2.4.5处理单词：更改大小写并删除标点符号36

2.5筛选记录38

2.6本章小结40

2.7扩展练习40

第3章提交并扩展你的第一个PySpark程序43

3.1对记录进行分组：计算词频43

3.2使用orderBy对结果排序46

3.3保存数据帧中的数据48

3.4整合所有内容：计数49

3.4.1使用PySpark的导入约定简化依赖50

3.4.2通过方法链简化程序51

3.5使用spark-submit以批处理模式启动程序53

3.6本章未涉及的内容54

3.7扩展词频程序55

3.8本章小结56

3.9扩展练习57

第4章使用pyspark.sql分析表格数据59

4.1什么是表格数据60

4.2使用PySpark分析和处理表格数据62

4.3在PySpark中读取和评估带分隔符的数据63

4.3.1第一次使用专门处理CSV文件的SparkReader63

4.3.2自定义SparkReader对象来读取CSV数据文件65

4.3.3探索数据世界的轮廓67

4.4数据操作基础：选择、删除、

重命名、排序及诊断68

4.4.1了解我们想要什么：选择列69

4.4.2只保留我们想要的：删除列71

4.4.3创建新列：使用withColumn()创建新列73

4.4.4整理数据帧：对列进行重命名和重排序76

4.4.5用describe()和summary()分析数据帧78

4.5本章小结80

4.6扩展练习80

第5章数据帧操作：连接和分组83

5.1连接数据83

5.1.1探索连接的世界84

5.1.2了解连接的两边85

5.1.3成功连接的规则：谓词85

5.1.4连接方法87

5.1.5连接的命名约定91

5.2通过groupby和GroupedData汇总数据94

5.2.1一个简单的分组蓝图95

5.2.2对自定义列使用agg()98

5.3处理null值：删除或填充100

5.3.1立即删除：使用dropna()

删除具有null值的记录100

5.3.2使用fillna()替换null值101

5.4问题回顾：端到端程序102

5.5本章小结105

5.6扩展练习105

第Ⅱ部分进级：将你的想法转化为代码

第6章多维数据帧：使用PySpark处理JSON数据109

6.1读取JSON数据：为schemapocalypse做好准备109

6.1.1从小处开始：将JSON数据作为受限的Python字典111

6.1.2更进一步：在PySpark中读取JSON数据113

6.2用复杂的数据类型突破二维数据114

6.2.1当有多个值时：使用数组116

6.2.2映射类型：同一列中的键和值119

6.3结构体：列中的嵌套列121

6.4构建和使用数据帧模式125

6.4.1使用Spark类型作为schema的基本代码块125

6.4.2使用结构体模式原地读取JSON文档127

6.4.3循环往复：以JSON格式指定模式131

6.5进行整合：使用复杂数据类型减少重复数据133

6.5.1获取“刚刚好”的数据帧：explode和collect135

6.5.2创建自己的层次结构：作为函数的结构体138

6.6本章小结139

6.7扩展练习139

第7章双语PySpark：混合Python和SQL141

7.1根据我们的了解：pyspark.sql与普通SQL142

7.2为SQL准备数据帧143

7.2.1将数据帧转换为Spark表144

7.2.2使用Spark目录145

7.3SQL和PySpark146

7.4在数据帧方法中使用类似SQL的语法148

7.4.1获取所需的行和列：select和where148

7.4.2将相似的记录分组在一起：groupby和orderby149

7.4.3在分组后使用having进行筛选150

7.4.4使用CREATE关键字创建新表/视图151

7.4.5使用UNION和JOIN向表中添加数据153

7.4.6通过子查询和公共表表达式更好地组织SQL代码154

7.4.7PySpark与SQL语法的快速总结157

7.5简化代码：混合SQL和Python157

7.5.1使用Python提高弹性并简化数据读取阶段158

7.5.2在PySpark中使用SQL风格的表达式159

7.6结论161

7.7本章小结161

7.8扩展练习162

第8章使用Python扩展PySpark:RDD和UDF165

8.1PySpark中的RDD166

8.2使用Python通过UDF扩展PySpark173

8.2.1这一切都从简单的Python开始：使用类型化的Python函数174

8.2.2使用udf()将Python函数转换为UDF176

8.3本章小结179

8.4扩展练习179

第9章大数据就是大量的小数据：使用pandasUDF181

9.1通过pandas进行列转换：使用SeriesUDF182

9.1.1将Spark连接到谷歌的BigQuery183

9.1.2SeriestoSeriesUDF：使用pandas的列函数188

9.1.3标量UDF+冷启动=SeriesUDF的迭代器190

9.2分组数据上的UDF：聚合

与应用193

9.2.1分组聚合UDF194

9.2.2分组映射UDF196

9.3何时用，怎么用198

9.4本章小结200

9.5扩展练习200

第10章不同视角下的数据：窗口函数203

10.1学习并使用简单的窗口函数204

10.1.1确定每年最冷的一天204

10.1.2创建并使用一个简单的窗口函数来获取最冷的日子206

10.1.3比较两种方法210

10.2除了汇总：使用排名和分析功能211

10.2.1排名函数：看看谁是第一212

10.2.2分析函数：回顾过去和展望未来216

10.3弹性窗口！使用行和范围的边界218

10.3.1计数，窗口样式：静态、增长和无边界219

10.3.2范围和行221

10.4综合实践：在窗口中使用UDF224

10.5查看窗口：成功的窗口函数的主要步骤226

10.6本章小结226

10.7扩展练习226

第11章加速PySpark：理解Spark的查询计划229

11.1芝麻开门：通过SparkUI了解Spark环境229

11.1.1查看配置：Environment选项卡231

11.1.2Executors选项卡和resourcemanagement选项卡233

11.1.3了解任务的运行：通过SparkUI判断任务是否完成237

11.1.4通过Spark查询计划映射操作：SQL选项卡240

11.1.5Spark的核心：解析、分析、优化和物理计划242

11.2关于性能：操作和内存246

11.2.1宽操作与窄操作246

11.2.2缓存数据帧：功能强大，但往往致命(对于性能而言)251

11.3本章小结254

第Ⅲ部分使用PySpark进行机器学习

第12章准备工作：为机器学习准备特征259

12.1阅读、探索和准备机器学习数据集260

12.1.1使用toDF()对列名进行标准化261

12.1.2探索数据并获取第一个特征列262

12.1.3解决数据错误并构建第一个特征集264

12.1.4删除无用记录并估算二分类特征266

12.1.5处理极值：清洗带有连续值的列268

12.1.6删除不常见的二分类列271

12.2特征创建和细化272

12.2.1创建自定义特征272

12.2.2去除高度相关的特征273

12.3基于转换器和估计器的特征准备276

12.3.1使用Imputer估计器填充连续特征277

12.3.2使用MinMaxScaler估计器对特征进行缩放279

12.4本章小结281

第13章通过机器学习管道增强机器学习283

13.1转换器和估计器：Spark

中机器学习的构建块284

13.1.1数据进出：转换器285

13.1.2估计器289

13.2构建(完整的)机器学习管道290

13.2.1使用向量列类型组装最终数据集292

13.2.2使用LogisticRegression分类器训练机器学习模型295

13.3评估和优化模型297

13.3.1评估模型准确率：混淆矩阵和评估器对象298

13.3.2真阳性与假阳性：ROC曲线300

13.3.3使用交叉验证优化超参数302

13.4从模型中获取优选的驱动力：提取系数305

13.5本章小结307

第14章构建自定义机器学习转换器和估计器309

14.1创建自己的转换器309

14.1.1设计转换器：从Param和转换的角度思考310

14.1.2创建转换器的Param312

14.1.3getter和setter：成为PySpark中优秀的一员314

14.1.4创建自定义转换器的初始化函数316

14.1.5创建转换函数317

14.1.6使用转换器319

14.2创建自己的估计器321

14.2.1设计估计器：从模型到Param321

14.2.2实现伴生模型：创建自己的Mixin324

14.2.3创建ExtremeValueCapper估计器326

14.2.4使用自定义估计器328

14.3在机器学习管道中使用转换器和估计器328

14.3.1处理多个输入329

14.3.2将自定义组件应用于机器学习管道331

14.4本章小结334

14.5结论：有数据，我就开心334

附录A习题答案337

附录B安装PySpark369

附录C一些有用的Python内容389

内容摘要
Spark数据处理引擎是一个惊人的分析工厂：输入原始数据，输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线，并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力，同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识，就可以通过构建机器学习管道，并配合Python、pandas和PySpark代码，探索PySpark的全面多功能特性。

主编推荐
《Python和PySpark数据分析》有 14 章和 3 个附录，详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例，介绍了PySpark中的实用知识点和语法，使你能够轻松掌握PySpark的核心概念，并将其应用于实际工作中。在本书中，你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作，你将了解如何使用 PySpark 处理大规模数据集、构建复杂的数据处理流程以及应对常见的数据质量和性能挑战。
配送说明

...
相似商品
为你推荐

孔网分类

图书

图书

Python和PySpark数据分析

孔网啦啦啦啦啦纺织女工火锅店第三课