成功加入购物车

去购物车结算 X
江苏读客文化
  • Spark快速大数据分析 第2版
  • Spark快速大数据分析 第2版
  • Spark快速大数据分析 第2版
  • Spark快速大数据分析 第2版

Spark快速大数据分析 第2版

举报

正版新书 新华官方库房直发 可开电子发票

  • 作者: 
  • 出版社:    人民邮电出版社
  • ISBN:    9787115576019
  • 出版时间: 
  • 版次:    1
  • 装帧:    平装
  • 开本:    16开
  • 纸张:    胶版纸
  • 页数:    340页
  • 字数:    502千字
  • 作者: 
  • 出版社:  人民邮电出版社
  • ISBN:  9787115576019
  • 出版时间: 
  • 版次:  1
  • 装帧:  平装
  • 开本:  16开
  • 纸张:  胶版纸
  • 页数:  340页
  • 字数:  502千字

售价 88.65 7.4折

定价 ¥119.80 

品相 全新品相描述

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-05-08

    数量
    库存8
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    • 商品详情
    • 店铺评价
    手机购买
    微信扫码访问
    • 商品分类:
      自然科学
      货号:
      SC:9787115576019
      品相描述:全新
      全新正版 提供发票
      商品描述:
      作者简介:
      【作者简介】

      朱尔斯·S. 达米吉(Jules S. Damji)是Databricks的高级开发人员,也是MLflow的贡献者。

      布鲁克·韦尼希(Brooke Wenig)是Databricks的机器学习专家。

      泰瑟加塔·达斯(Tathagata Das)是Databricks的软件工程师,也是Apache Spark PMC成员。

      丹尼·李(Denny Lee)是Databricks的软件工程师。

      【译者简介】

      王道远

      目前就职于阿里云开源大数据平台数据湖存储团队,花名“健身”,主要负责数据湖架构下的缓存优化工作。有多年的大数据开发经验,熟悉Spark源码,从2014年开始参与Spark项目,曾为Spark贡献大量修复和新特性,也曾作为主要贡献者参与了OAP和SparkCube等Spark生态开源项目的开发。
      主编推荐:
      1.本书作者均来自Spark的母公司Databricks。他们将带你开始使用Spark,并了解如何利用它适应这个属于大数据和机器学习的新时代。
      2.第2版在第1版的基础上做了大量更新,涵盖Spark 3.0的新特性,并着重展示如何利用机器学习算法执行大数据分析。
      3.Spark项目创始人Matei Zaharia、Spark PMC成员Reynold Xin力荐。

      毋庸置疑,数据已经成为现代化企业的重要资产,大数据分析技术则是企业挖掘数据价值的核心利器。一直以来,Spark就是大数据分析领域的佼佼者,也已经成为一站式大数据分析引擎的事实标准。

      * 学习使用Python、Java、Scala的结构化数据API
      * 理解Spark SQL引擎的原理
      * 掌握Spark应用的优化技巧
      * 了解如何读写数据源:JSON、Parquet、CSV、Avro、ORC等
      * 使用Structured Streaming分析批式数据和流式数据
      * 使用Spark和Delta Lake构建湖仓一体的系统
      * 使用MLlib开发机器学习流水线
      媒体评论:
      "这本书提供了一种系统学习Spark的方法,并介绍了该项目的发展近况,是Spark开发人员上手大数据的好途径。"

      --Reynold Xin
      Databricks联合创始人、Apache Spark PMC成员

      "对于希望学习Spark并想构建可伸缩的可靠大数据应用的数据科学家和数据工程师来说,这本书应成为常备指南。"

      --Ben Lorica
      Databricks数据科学家、Spark + AI峰会项目主席

      "在信息化时代,数据已经成为现代化企业的重要资产,大数据分析技术也已经成为企业挖掘数据价值的核心利器。近10年来,随着开源技术理念的蓬勃发展,开源大数据技术体系已经成为行业的主流选择,Apache Spark就是其中的优秀代表。凭借优秀的架构设计,Spark 可以在数据仓库、数据湖和机器学习领域快速处理海量数据,加速各行各业实现数字化转型。"

      --王峰,花名"莫问"
      阿里云开源大数据平台负责人

      "转眼间Apache Spark已经走过了近12个年头。作为一个12年的项目,Spark并未逐渐凋零,而是在云原生、湖仓一体、AI等方面爆发出更强的生命力。这本书的第2版在为大家介绍Spark基本原理的同时,也花了不少篇幅介绍它在这些新兴领域中的应用。希望你通过此书对Spark的基本原理及未来发展有一个系统的了解,也希望Spark在未来的10年能持续进化,在大数据领域擦出更多的'火花'。"

      --邵赛赛
      腾讯专家工程师,数据湖团队负责人
      内容简介:
      本书的主角是在大数据时代应运而生的数据处理与分析利器——Spark。你将通过丰富的示例学习如何使用Spark的结构化数据API,利用Spark SQL进行交互式查询,掌握Spark应用的优化之道,用Spark和Delta Lake等开源工具构建可靠的数据湖,并用MLlib库实现机器学习流水线。随着Spark从2.x版本升级到3.0版本,本书第2版做了全面的更新,以体现Spark生态系统在机器学习、流处理技术等方面的发展,另新增一章详解Spark 3.0引入的新特性。本书面向希望利用Spark处理海量数据的读者,包括数据工程师、数据科学家、机器学习工程师等。
      目录:
      译者序 xiii

      对本书的赞誉 xv

      序 xvii

      前言 xix

      第1章 Apache Spark简介:一站式分析引擎 1

      1.1 Spark的起源 1

      1.1.1 谷歌的大数据和分布式计算 1

      1.1.2 雅虎的Hadoop 2

      1.1.3 Spark在AMPLab崭露头角 3

      1.2 什么是Spar 3

      1.2.1 快速 4

      1.2.2 易用 4

      1.2.3 模块化 4

      1.2.4 可扩展 5

      1.3 一站式数据分析 5

      1.3.1 由Spark组件组成的一站式软件栈 6

      1.3.2 Spark的分布式执行 9

      1.4 开发者体验 12

      1.4.1 哪些人用Spark,用它做什么 13

      1.4.2 社区接受度与社区发展 14

      第2章 下载并开始使用Apache Spark 16

      2.1 第1步:下载Spark 16

      2.2 第2步:使用Scala shell 或PySpark shell 18

      2.3 第3步:理解Spark 应用的相关概念 22

      2.3.1 Spark应用与SparkSession 22

      2.3.2 Spark作业 23

      2.3.3 Spark执行阶段 23

      2.3.4 Spark任务 24

      2.4 转化操作、行动操作以及惰性求值 24

      2.5 Spark UI 26

      2.6 第 一个独立应用 29

      2.6.1 统计M&M巧克力豆 29

      2.6.2 用Scala构建独
      ...

      配送说明

      ...

      相似商品

      为你推荐

    本店分类
    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看