全新正版现货 Spark快速大数据分析(第2版)图灵程序设计丛书

正版新书现货可以下单一般就是有货的下午5点前订单当天发货

作者: (美)朱尔斯·S.达米吉[等]著
出版社: 人民邮电出版社
ISBN: 9787115576019
出版时间: 2021-11
版次: 1

装帧: 平装
开本: 16开
纸张: 胶版纸
页数: 314页

作者: (美)朱尔斯·S.达米吉[等]著
出版社: 人民邮电出版社
ISBN: 9787115576019

出版时间: 2021-11
版次: 1
装帧: 平装

开本: 16开
纸张: 胶版纸
页数: 314页

售价 70.68 5.9折

定价￥119.80

品相全新

优惠

运费

本店暂时无法向该地区发货

延迟发货说明

时间：

说明：

上书时间2024-01-23

数量: 库存3件

立即购买加入购物车收藏

卖家超过10天未登录

商品详情
店铺评价

手机购买

微信扫码访问

商品分类：

计算机与互联网

货号：

R_11315209

商品描述：

基本信息
书名:Spark快速大数据分析(第2版)/图灵程序设计丛书
定价：119.80元
作者:(美)朱尔斯·S.达米吉[等]著
出版社：人民邮电出版社
出版日期：2021-11-01
ISBN：9787115576019
字数：
页码：314
版次：2
装帧：平装
开本：16开
商品重量：
编辑推荐

内容提要
本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API，利用Spark SQL进行交互式查询，掌握Spark应用的优化之道，用Spark和Delta Lake等开源工具构建可靠的数据湖，并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本，本书第2版做了全面的更新，以体现Spark生态系统在机器学习、流处理技术等方面的发展，另新增一章详解Spark 3.0引入的新特性。
目录
译者序 ii对本书的赞誉 xv序．xvii前言 x章　Apache Spark简介：一站式分析引擎 11．1　Spark的起源 11．1．1　谷歌的大数据和分布式计算 11．1．2　雅虎的Hadoop 21．1．3　Spark在AMPLab崭露头角 31．2　什么是Spar 31．2．1　快速 41．2．2　易用 41．2．3　模块化 41．2．4　可扩展 51．3　一站式数据分析 51．3．1　由Spark组件组成的一站式软件栈 61．3．2　Spark的分布式执行 91．4　开发者体验 121．4．1　哪些人用Spark，用它做什么 131．4．2　社区接受度与社区发展 14第 2 章　下载并开始使用Apache Spark 162．1　步：下载Spark 162．2　第 2 步：使用Scala shell 或PySpark shell 182．3　第3 步：理解Spark 应用的相关概念 222．3．1　Spark 应用与SparkSessio222．3．2　Spark 作业 232．3．3　Spark 执行阶段 232．3．4　Spark 任务 242．4　转化操作、行动操作以及惰性求值 242．5　Spark UI 262．6　个独立应用 292．6．1　统计M&M 巧克力豆 292．6．2　用Scala 构建独立应用 342．7　小结 36第3 章　Apache Spark 的结构化数据API 373．1　RDD 的背后是什么 373．2　Spark 支持结构化数据 383．3　DataFrame API 413．3．1　Spark 的基本数据类型 413．3．2　Spark 中结构化的复杂数据类型 423．3．3　表结构与DataFrame 433．3．4　列与表达式 473．3．5　行 493．3．6　常见的DataFrame 操作 503．3．7　完整的DataFrame 示例 593．4　Dataset API 603．4．1　有类型对象、无类型对象，以及普通行 613．4．2　创建Dataset 623．4．3　Dataset 操作 633．4．4　完整的Dataset 示例 653．5　对比DataFrame 和Dataset 653．6　Spark SQL 及其底层引擎 663．7　小结 71第4 章　Spark SQL 与DataFrame：内建数据源概览 734．1　在Spark 应用中使用Spark SQL 744．2　SQL 表和视图 794．2．1　有管理表和无管理表 794．2．2　创建SQL 数据库和SQL 表 794．2．3　创建视图 804．2．4　查看元数据 824．2．5　缓存SQL 表 824．2．6　将表读取为DataFrame 824．3　DataFrame 和SQL 表的数据源 834．3．1　DataFrameReader 834．3．2　DataFrameWriter 854．3．3　Parquet 864．3．4　JSON 884．3．5　CSV 904．3．6　Avro 924．3．7　ORC 944．3．8　图像 964．3．9　二进制文件 974．4　小结 98第5 章　Spark SQL 与DataFrame：读写外部数据源 1005．1　Spark SQL 与Apache Hive 1005．2　用Spark SQL shell、Beeline 和Tableau 查询 1065．2．1　使用Spark SQL shell 1065．2．2　使用Beeline 1075．2．3　使用Tableau 1085．3　外部数据源 1145．3．1　BC 和SQL 数据库 1145．3．2　PostgreSQL 1155．3．3　MySQL 1175．3．4　Azure Cosmos DB 1185．3．5　MS SQL Server 1205．3．6　其他外部数据源 1215．4　DataFrame 和Spark SQL 的高阶函数 1215．4．1　方式1：打散再重组 1215．4．2　方式2：用户自定义函数 1225．4．3　针对复杂数据类型的内建函数 1225．4．4　高阶函数 1245．5　常用的DataFrame 操作和Spark SQL 操作 1275．5．1　联合 1305．5．2　连接 1305．5．3　窗口 1315．5．4　修改 1345．6　小结 137第6 章　Spark SQL 与Dataset 1386．1　Java 与Scala 共用一套API 1386．2　操作Dataset 1406．2．1　创建示例数据 1416．2．2　转化示例数据 1426．3　Dataset 与DataFrame 的内存管理 1476．4　Dataset 编码器 1476．4．1　Spark 内部格式与Java 对象格式 1486．4．2　序列化与反序列化 1486．5　使用Dataset 的开销 1496．6　小结 151第7 章　Spark 应用的优化与调优 1527．1　为效率而优化与调优 1527．1．1　查看与设置Spark 配置 1527．1．2　为大型作业扩展Spark 1557．2　数据的缓存与持久化 1607．2．1　DataFrame．cache 1617．2．2　DataFrame．persist 1627．2．3　什么时候应该缓存和持久化 1647．2．4　什么时候不应该缓存和持久化 1647．3　Spark 的各种连接算法 1647．3．1　广播哈希连接 1657．3．2　混洗排序合并连接 1667．4　查看Spark UI 1737．5　小结 180第8 章　结构化流处理 1818．1　Spark 流处理引擎的演进过程 1818．1．1　以微型批模拟的流处理 1828．1．2　从DStream 获取的经验教训 1838．1．3　Structured Streaming 的设计哲学 1838．2　Structured Streaming 的编程模型 1848．3　Structured Streaming 查询 1868．3．1　五步定义流式查询 1868．3．2　探究活跃的流式查询 1918．3．3　失败恢复与“一次”语义 1928．3．4　监控活跃的查询 1948．4　流式数据源与数据池 1968．4．1　文件 1978．4．2　Kafka 1998．4．3　自定义流式数据源与数据池 2008．5　数据转化 2048．5．1　增量执行与流处理状态 2048．5．2　无状态转化操作 2048．5．3　有状态转化操作 2058．6　有状态的流式聚合 2078．6．1　不根据时间维度进行聚合 2078．6．2　使用事件时间窗口进行聚合 2088．7　流式连接 2148．7．1　流与静态表连接 2148．7．2　流与流连接 2158．8　任意的有状态计算 2208．8．1　用mapGroupsWithState 为任意有状态操作建模 2208．8．2　用超时管理不活跃的分组 2238．8．3　用flatMapGroupsWithState 进行通用操作 2268．9　性能调优 2278．10　小结 229第9 章　用Apache Spark 构建可靠的数据湖 2309．1　存储解决方案的重要特点 2309．2　数据库 2319．2．1　数据库简介 2319．2．2　用Spark 读写数据库 2329．2．3　数据库的不足之处 2329．3　数据湖 2339．3．1　数据湖简介 2339．3．2　用Spark 读写数据湖 2339．3．3　数据湖的不足之处 2349．4　湖仓一体：下一代存储解决方案 2359．4．1　Apache Hudi 2369．4．2　Apache Iceberg 2369．4．3　Delta Lake 2369．5　用Spark 与Delta Lake 构建湖仓一体的系统 2379．5．1　为使用Delta Lake 配置Spark 2379．5．2　把数据加载到Delta Lake 表中 2389．5．3　把数据流加载到Delta Lake 表中 2409．5．4　写数据时强化表结构约束以防止数据损坏 2419．5．5　修改表结构以适应数据变化 2429．5．6　转化已有数据 2429．5．7　根据操作历史审计数据变更 2459．5．8　用时间旅行功能查询表以前的快照数据 2459．6　小结 2460 章　用MLlib 实现机器学习 24710．1　什么是机器学习 24710．1．1　监督学习 24810．1．2　无监督学习 24910．1．3　为什么将Spark 用于机器学习 25010．2　设计机器学习流水线 25110．2．1　接入并探索数据 25110．2．2　创建训练集与测试集 25210．2．3　为转化器准备特征 25410．2．4　理解线性回归 25510．2．5　用预估器构建模型 25610．2．6　创建流水线 25710．2．7　评估模型 26210．2．8　保存和加载模型 26610．3　超参数调优 26610．3．1　基于树的模型 26710．3．2　k 折交叉验证 27410．3．3　优化流水线 27710．4　小结 2791 章　用Apache Spark管理、部署与伸缩机器学习流水线 28011．1　模型管理 28011．2　用MLlib 部署模型所用的选项 28611．2．1　批处理 28711．2．2　流处理 28911．2．3　导出模型用于实时预测的模式 29011．3　利用Spark 使用非MLlib 模型 29111．3．1　Pandas UDF 29111．3．2　将Spark 用于分布式超参数调优 29311．4　小结 2952 章　尾声：Apache Spark 3．0 29612．1　Spark 内核与Spark SQL 29612．1．1　动态分区裁剪 29612．1．2　自适应查询执行 29812．1．3　SQL 连接提示 30112．1．4　Catalog 插件API 与DataSourceV2 30212．1．5　可感知加速器的调度器 30312．2　Structured Streaming 30412．3　PySpark、Pandas UDF 和Pandas 函数API 30612．3．1　重新设计的带有Pytho类型提示的Pandas UDF 30612．3．2　Pandas UDF 中的迭代器支持 30712．3．3　新的Pandas 函数API 30712．4　有改动的功能 30812．4．1　支持的与不推荐使用的编程语言 30912．4．2　DataFrame API 和Dataset API 的改动 30912．4．3　DataFrame 与SQL 的explai命令 30912．5　小结 311作者简介 313封面简介 313
作者介绍
作者简介朱尔斯.S. 达米吉（Jules S. Damji）是Databricks的高级开发人员，也是MLflow的贡献者。布鲁克.韦尼希（Brooke Wenig）是Databricks的机器学习专家。泰瑟加塔.达斯（Tathagata Das）是Databricks的软件工程师，也是Apache Spark PMC成员。丹尼.李（Denny Lee）是Databricks的软件工程师。译者简介王道远目前就职于阿里云开源大数据平台数据湖存储团队，花名“健身”，主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验，熟悉Spark源码，从2014年开始参与Spark项目，曾为Spark贡献大量修复和新特性，也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。
序言
- 封面
  
  【封面】
配送说明

...
相似商品
为你推荐

孔网分类

孔网特色

外文古旧书(3)

图书

艺术品收藏

连环画(2114)

特色

图书

艺术品藏品

全新正版现货 Spark快速大数据分析(第2版)图灵程序设计丛书

孔网啦啦啦啦啦纺织女工火锅店第三课