成功加入购物车

去购物车结算 X
平花卉的书店
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析
  • Python和PySpark数据分析

Python和PySpark数据分析

举报

正版全新

  • 出版时间: 
  • 装帧:    平装
  • 开本:    16开
  • ISBN:  9787302645368
  • 出版时间: 
  • 装帧:  平装
  • 开本:  16开

售价 81.70 6.9折

定价 ¥118.00 

品相 全新

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-05-02

    数量
    库存10
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    • 商品详情
    • 店铺评价
    手机购买
    微信扫码访问
    • 货号:
      1203112730
      商品描述:
      作者简介
          作为一家数据驱动软件公司的ML总监,Jonathan Rioux每天都在使用PySpark。他向数据科学家、数据工程师和精通数据的业务分析师讲授PySpark的用法。

      目录
      第1章介绍1

      1.1什么是PySpark1

      1.1.1从头开始:什么是Spark2

      1.1.2PySpark=Spark+Python3

      1.1.3为什么选择PySpark3

      1.2PySpark的工作原理5

      1.2.1使用集群管理器进行物理规划6

      1.2.2懒惰的主管成就工厂的高效8

      1.3你将从本书学到什么11

      1.4我们将如何开始12

      1.5本章小结13

      第Ⅰ部分介绍:PySpark的第一步

      第2章使用PySpark编写的第一个数据处理程序17

      2.1设置pysparkshell18

      2.1.1SparkSession入口点20

      2.1.2配置PySpark的日志级别21

      2.2映射程序22

      2.3采集和探索:为数据转换奠定基础23

      2.3.1用spark.read将数据读入数据帧24

      2.3.2从结构到内容:使用show()探索数据帧27

      2.4简单的列转换:将句子拆解为单词列表29

      2.4.1使用select()选择特定的列30

      2.4.2转换列:将字符串拆分为单词列表31

      2.4.3重命名列:alias和withColumnRenamed33

      2.4.4重塑数据:将list分解成行34

      2.4.5处理单词:更改大小写并删除标点符号36

      2.5筛选记录38

      2.6本章小结40

      2.7扩展练习40

      第3章提交并扩展你的第一个PySpark程序43

      3.1对记录进行分组:计算词频43

      3.2使用orderBy对结果排序46

      3.3保存数据帧中的数据48

      3.4整合所有内容:计数49

      3.4.1使用PySpark的导入约定简化依赖50

      3.4.2通过方法链简化程序51

      3.5使用spark-submit以批处理模式启动程序53

      3.6本章未涉及的内容54

      3.7扩展词频程序55

      3.8本章小结56

      3.9扩展练习57

      第4章使用pyspark.sql分析表格数据59

      4.1什么是表格数据60

      4.2使用PySpark分析和处理表格数据62

      4.3在PySpark中读取和评估带分隔符的数据63

      4.3.1第一次使用专门处理CSV文件的SparkReader63

      4.3.2自定义SparkReader对象来读取CSV数据文件65

      4.3.3探索数据世界的轮廓67

      4.4数据操作基础:选择、删除、

      重命名、排序及诊断68

      4.4.1了解我们想要什么:选择列69

      4.4.2只保留我们想要的:删除列71

      4.4.3创建新列:使用withColumn()创建新列73

      4.4.4整理数据帧:对列进行重命名和重排序76

      4.4.5用describe()和summary()分析数据帧78

      4.5本章小结80

      4.6扩展练习80

      第5章数据帧操作:连接和分组83

      5.1连接数据83

      5.1.1探索连接的世界84

      5.1.2了解连接的两边85

      5.1.3成功连接的规则:谓词85

      5.1.4连接方法87

      5.1.5连接的命名约定91

      5.2通过groupby和GroupedData汇总数据94

      5.2.1一个简单的分组蓝图95

      5.2.2对自定义列使用agg()98

      5.3处理null值:删除或填充100

      5.3.1立即删除:使用dropna()

      删除具有null值的记录100

      5.3.2使用fillna()替换null值101

      5.4问题回顾:端到端程序102

      5.5本章小结105

      5.6扩展练习105

      第Ⅱ部分进级:将你的想法转化为代码

      第6章多维数据帧:使用PySpark处理JSON数据109

      6.1读取JSON数据:为schemapocalypse做好准备109

      6.1.1从小处开始:将JSON数据作为受限的Python字典111

      6.1.2更进一步:在PySpark中读取JSON数据113

      6.2用复杂的数据类型突破二维数据114

      6.2.1当有多个值时:使用数组116

      6.2.2映射类型:同一列中的键和值119

      6.3结构体:列中的嵌套列121

      6.4构建和使用数据帧模式125

      6.4.1使用Spark类型作为schema的基本代码块125

      6.4.2使用结构体模式原地读取JSON文档127

      6.4.3循环往复:以JSON格式指定模式131

      6.5进行整合:使用复杂数据类型减少重复数据133

      6.5.1获取“刚刚好”的数据帧:explode和collect135

      6.5.2创建自己的层次结构:作为函数的结构体138

      6.6本章小结139

      6.7扩展练习139

      第7章双语PySpark:混合Python和SQL141

      7.1根据我们的了解:pyspark.sql与普通SQL142

      7.2为SQL准备数据帧143

      7.2.1将数据帧转换为Spark表144

      7.2.2使用Spark目录145

      7.3SQL和PySpark146

      7.4在数据帧方法中使用类似SQL的语法148

      7.4.1获取所需的行和列:select和where148

      7.4.2将相似的记录分组在一起:groupby和orderby149

      7.4.3在分组后使用having进行筛选150

      7.4.4使用CREATE关键字创建新表/视图151

      7.4.5使用UNION和JOIN向表中添加数据153

      7.4.6通过子查询和公共表表达式更好地组织SQL代码154

      7.4.7PySpark与SQL语法的快速总结157

      7.5简化代码:混合SQL和Python157

      7.5.1使用Python提高弹性并简化数据读取阶段158

      7.5.2在PySpark中使用SQL风格的表达式159

      7.6结论161

      7.7本章小结161

      7.8扩展练习162

      第8章使用Python扩展PySpark:RDD和UDF165

      8.1PySpark中的RDD166

      8.2使用Python通过UDF扩展PySpark173

      8.2.1这一切都从简单的Python开始:使用类型化的Python函数174

      8.2.2使用udf()将Python函数转换为UDF176

      8.3本章小结179

      8.4扩展练习179

      第9章大数据就是大量的小数据:使用pandasUDF181

      9.1通过pandas进行列转换:使用SeriesUDF182

      9.1.1将Spark连接到谷歌的BigQuery183

      9.1.2SeriestoSeriesUDF:使用pandas的列函数188

      9.1.3标量UDF+冷启动=SeriesUDF的迭代器190

      9.2分组数据上的UDF:聚合

      与应用193

      9.2.1分组聚合UDF194

      9.2.2分组映射UDF196

      9.3何时用,怎么用198

      9.4本章小结200

      9.5扩展练习200

      第10章不同视角下的数据:窗口函数203

      10.1学习并使用简单的窗口函数204

      10.1.1确定每年最冷的一天204

      10.1.2创建并使用一个简单的窗口函数来获取最冷的日子206

      10.1.3比较两种方法210

      10.2除了汇总:使用排名和分析功能211

      10.2.1排名函数:看看谁是第一212

      10.2.2分析函数:回顾过去和展望未来216

      10.3弹性窗口!使用行和范围的边界218

      10.3.1计数,窗口样式:静态、增长和无边界219

      10.3.2范围和行221

      10.4综合实践:在窗口中使用UDF224

      10.5查看窗口:成功的窗口函数的主要步骤226

      10.6本章小结226

      10.7扩展练习226

      第11章加速PySpark:理解Spark的查询计划229

      11.1芝麻开门:通过SparkUI了解Spark环境229

      11.1.1查看配置:Environment选项卡231

      11.1.2Executors选项卡和resourcemanagement选项卡233

      11.1.3了解任务的运行:通过SparkUI判断任务是否完成237

      11.1.4通过Spark查询计划映射操作:SQL选项卡240

      11.1.5Spark的核心:解析、分析、优化和物理计划242

      11.2关于性能:操作和内存246

      11.2.1宽操作与窄操作246

      11.2.2缓存数据帧:功能强大,但往往致命(对于性能而言)251

      11.3本章小结254

      第Ⅲ部分使用PySpark进行机器学习

      第12章准备工作:为机器学习准备特征259

      12.1阅读、探索和准备机器学习数据集260

      12.1.1使用toDF()对列名进行标准化261

      12.1.2探索数据并获取第一个特征列262

      12.1.3解决数据错误并构建第一个特征集264

      12.1.4删除无用记录并估算二分类特征266

      12.1.5处理极值:清洗带有连续值的列268

      12.1.6删除不常见的二分类列271

      12.2特征创建和细化272

      12.2.1创建自定义特征272

      12.2.2去除高度相关的特征273

      12.3基于转换器和估计器的特征准备276

      12.3.1使用Imputer估计器填充连续特征277

      12.3.2使用MinMaxScaler估计器对特征进行缩放279

      12.4本章小结281

      第13章通过机器学习管道增强机器学习283

      13.1转换器和估计器:Spark

      中机器学习的构建块284

      13.1.1数据进出:转换器285

      13.1.2估计器289

      13.2构建(完整的)机器学习管道290

      13.2.1使用向量列类型组装最终数据集292

      13.2.2使用LogisticRegression分类器训练机器学习模型295

      13.3评估和优化模型297

      13.3.1评估模型准确率:混淆矩阵和评估器对象298

      13.3.2真阳性与假阳性:ROC曲线300

      13.3.3使用交叉验证优化超参数302

      13.4从模型中获取优选的驱动力:提取系数305

      13.5本章小结307

      第14章构建自定义机器学习转换器和估计器309

      14.1创建自己的转换器309

      14.1.1设计转换器:从Param和转换的角度思考310

      14.1.2创建转换器的Param312

      14.1.3getter和setter:成为PySpark中优秀的一员314

      14.1.4创建自定义转换器的初始化函数316

      14.1.5创建转换函数317

      14.1.6使用转换器319

      14.2创建自己的估计器321

      14.2.1设计估计器:从模型到Param321

      14.2.2实现伴生模型:创建自己的Mixin324

      14.2.3创建ExtremeValueCapper估计器326

      14.2.4使用自定义估计器328

      14.3在机器学习管道中使用转换器和估计器328

      14.3.1处理多个输入329

      14.3.2将自定义组件应用于机器学习管道331

      14.4本章小结334

      14.5结论:有数据,我就开心334

      附录A习题答案337

      附录B安装PySpark369

      附录C一些有用的Python内容389


      内容摘要
      Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。本书帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,并配合Python、pandas和PySpark代码,探索PySpark的全面多功能特性。

      主编推荐
      《Python和PySpark数据分析》有 14 章和 3 个附录,详细介绍了如何将PySpark 应用到日常的数据科学工作中。通过通俗易懂的示例,介绍了PySpark中的实用知识点和语法,使你能够轻松掌握PySpark的核心概念,并将其应用于实际工作中。在本书中,你将学习如何使用 PySpark 进行数据预处理、模型训练和评估等常见的数据科学任务。每个章节都以具体的示例和案例展示了 PySpark 在不同情景下的应用方法和技巧。通过实际操作,你将了解如何使用 PySpark 处理大规模数据集、构建复杂的数据处理流程以及应对常见的数据质量和性能挑战。

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看