成功加入购物车

去购物车结算 X
书山有路图书专营店
  • Spark大数据技术与应用 人民邮电出版社
图文详情

Spark大数据技术与应用 人民邮电出版社

举报

【保正版 出版社正版新书发货放心订购】

  • 作者: 
  • 出版社:    人民邮电出版社
  • ISBN:    9787115464880
  • 出版时间: 
  • 装帧:    平装
  • 开本:    16开
  • 页数:    272页
  • 出版时间: 
  • 装帧:  平装
  • 开本:  16开
  • 页数:  272页

售价 37.40 7.5折

定价 ¥49.80 

品相 全新

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2023-10-24

    数量
    库存2
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    四年老店
    店铺等级
    拍卖等级
    资质认证
    90天平均
    成功完成
    91.32% (251笔)
    好评率
    99.95%
    发货时间
    12.11小时
    地址
    广东省惠州市惠阳区
    • 商品详情
    • 店铺评价
    立即购买 加入购物车 收藏
    手机购买
    微信扫码访问
    • 货号:
      1201659410
      商品描述:
      内容简介
      本书以任务为导向,较为全面地介绍了Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述;Scala基础;Spark编程;Spark编程进阶;SparkSQL:结构化数据文件处理;SparkStreaming:实时计算框架;SparkGraphX:图计算框架;SparkMLlib:功能强大的算法库;项目案例:餐饮平台菜品智能推荐。本书的大部分章节都包含了实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。

      作者简介
      张良均,高 级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明专利12项,主编图书《神经网络实用教程》《数据挖掘:实用案例分析》《Python数据分析与挖掘》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

      目录
      第 1章Spark概述1

      任务1.1认识Spark1

      1.1.1Spark的发展1

      1.1.2Spark的特点2

      1.1.3Spark生态圈4

      1.1.4Spark的应用场景5

      任务1.2搭建Spark环境5

      1.2.1搭建单机版环境6

      1.2.2搭建单机伪分布式环境6

      1.2.3搭建接近分布式环境7

      任务1.3了解Spark运行架构与原理10

      1.3.1Spark集群架构11

      1.3.2Spark作业运行流程11

      1.3.3Spark核心数据集RDD15

      1.3.4Spark核心原理17

      小结19

      第 2章Scala基础20

      任务2.1Scala的简介与安装21

      2.1.1Scala简介21

      2.1.2Scala特性21

      2.1.3Scala的环境设置及安装21

      2.1.4运行Scala23

      任务2.2定义函数识别号码类型24

      2.2.1数据类型24

      2.2.2常量和变量25

      2.2.3表达式26

      2.2.4数组27

      2.2.5函数29

      2.2.6任务实现31

      任务2.3统计广州号码段数量32

      2.3.1if判断32

      2.3.2循环33

      2.3.3任务实现34

      任务2.4根据归属地对手机号码段分组34

      2.4.1List35

      2.4.2Set36

      2.4.3Map37

      2.4.4元组38

      2.4.5函数组合器38

      2.4.6任务实现39

      任务2.5编写手机号码归属地信息查询程序40

      2.5.1Scala类40

      2.5.2Scala object42

      2.5.3Scala模式匹配42

      2.5.4Scala读取文件44

      2.5.5任务实现44

      小结45

      实训45

      实训1编写函数过滤文本中的回文单词45

      实训2使用Scala编程输出杨辉三角46

      课后习题46

      第3章Spark编程48

      任务3.1以学生成绩数据创建RDD49

      3.1.1从内存中已有数据创建RDD50

      3.1.2从外部存储创建RDD51

      3.1.3任务实现52

      任务3.2查询学生成绩表中的前5名52

      3.2.1使用map转换数据52

      3.2.2使用sortBy()排序53

      3.2.3使用collect()查询53

      3.2.4使用flatMap转换数据54

      3.2.5使用take()方式查询某几个值54

      3.2.6任务实现55

      任务3.3输出单科成绩为100分的学生ID55

      3.3.1使用union()合并多个RDD56

      3.3.2使用filter()进行过滤56

      3.3.3使用distinct()进行去重56

      3.3.4简单的集合操作57

      3.3.5任务实现58

      任务3.4输出每位学生所有科目的总成绩58

      3.4.1键值对RDD简介59

      3.4.2创建键值对RDD59

      3.4.3转换操作keys与values59

      3.4.4转换操作reduceByKey()60

      3.4.5转换操作groupByKey()60

      3.4.6任务实现60

      任务3.5输出每位学生的平均成绩61

      3.5.1使用join()连接两个RDD61

      3.5.2使用zip组合两个RDD63

      3.5.3使用combineByKey合并相同键的值63

      3.5.4使用lookup查找指 定键的值64

      3.5.5任务实现64

      任务3.6将汇总后的学生成绩存储为文本文件65

      3.6.1JSON文件的读取与存储65

      3.6.2CSV文件的读取与存储67

      3.6.3SquenceFile的读取与存储69

      3.6.4文本文件的读取与存储70

      3.6.5任务实现71

      小结72

      实训72

      实训1统计文本中性别为“男”的用户数73

      实训2单词计数73

      课后习题74

      第4章Spark编程进阶76

      任务4.1搭建开发环境77

      4.1.1下载与安装IntelliJ IDEA77

      4.1.2Scala插件安装与使用79

      4.1.3配置Spark运行环境84

      4.1.4运行Spark程序85

      任务4.2使用移动平均预测股票涨跌92

      4.2.1持久化(缓存)93

      4.2.2数据分区94

      4.2.3计算价格波动幅度98

      4.2.4任务实现100

      小结103

      实训103

      实训竞赛网站访问日志分析104

      课后习题104

      第5章Spark SQL:结构化数据文件处理107

      任务5.1认识Spark SQL108

      5.1.1Spark SQL简介108

      5.1.2Spark SQL CLI配置109

      5.1.3Spark SQL与Shell交互110

      任务5.2掌握DataFrame基础操作111

      5.2.1创建DataFrame对象111

      5.2.2DataFrame查看数据114

      5.2.3DataFrame查询操作117

      5.2.4DataFrame输出操作123

      任务5.3探索分析法律服务网站数据125

      5.3.1获取数据125

      5.3.2网页类型分析126

      5.3.3点击次数分析131

      5.3.4网页排名分析133

      小结135

      实训135

      实训1统计分析航空公司客户数据的空值以及异常值135

      实训2统计分析某公司每年的产品销售量及销售额137

      课后习题139

      第6章Spark Streaming:实时计算框架141

      任务6.1初探Spark Streaming142

      6.1.1Spark Streaming概述142

      6.1.2Spark Streaming运行原理142

      6.1.3初步使用Spark Streaming143

      任务6.2掌握DStream编程模型145

      6.2.1DStream简介146

      6.2.2DStream转换操作146

      6.2.3DStream窗口操作148

      6.2.4DStream输出操作151

      任务6.3Spark Streaming实时更新热门博文155

      6.3.1Spark Streaming输入数据源155

      6.3.2Spark Streaming计算网页热度158

      6.3.3网页热度输出158

      6.3.4任务实现159

      小结161

      实训161

      实训1过滤打印包含单词error的记录162

      实训2实时过滤歌曲播放次数超过100次的记录并存储在HDFS上162

      课后习题162

      第7章Spark GraphX:图计算框架165

      任务7.1认识Spark GraphX166

      7.1.1图的基本概念166

      7.1.2图计算的应用167

      7.1.3GraphX的基础概念168

      7.1.4GraphX的发展168

      任务7.2了解GraphX常用API169

      7.2.1图的创建与存储169

      7.2.2数据查询与数据转换174

      7.2.3结构转换与关联聚合180

      任务7.3构建信任网络并找出目标用户187

      7.3.1构建网站信任网络188

      7.3.2找出需要支付稿酬的用户188

      7.3.3找出进入热门榜的用户189

      小结191

      实训191

      实训1使用PageRank算法完成网页排名191

      实训2利用二度关系完成商品推荐192

      课后习题194

      第8章Spark MLlib:功能强大的算法库196

      任务8.1了解MLlib算法库197

      8.1.1机器学习简介197

      8.1.2MLlib介绍198

      任务8.2以Logistic回归实现用户分类212

      8.2.1分析思路212

      8.2.2数据处理213

      8.2.3MLlib实现Logistic回归215

      8.2.4任务实现217

      小结221

      实训221

      实训1通过KMeans定位商圈221

      实训2朴素贝叶斯进行文本分类222

      课后习题223

      第9章项目案例:餐饮平台菜品智能推荐226

      任务9.1推荐方案设计227

      9.1.1用户数据分析227

      9.1.2常用推荐算法229

      9.1.3推荐流程设计231

      任务9.2数据预处理232

      9.2.1原始数据探索分析233

      9.2.2异常数据处理237

      9.2.3数据变换处理237

      9.2.4数据集分割239

      任务9.3建立推荐模型240

      9.3.1以基于用户的协同过滤算法建模240

      9.3.2以基于物品的协同过滤算法建模243

      9.3.3以基于Spark ALS的协同过滤算法建立模型246

      9.3.4推荐模型的评测251

      任务9.4使用模型进行菜品推荐262

      9.4.1对某用户推荐10道新菜品262

      9.4.2对所有用户进行新菜品推荐267

      小结272

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看