成功加入购物车

去购物车结算 X
果然是好书店
  • Spark大数据技术与应用 9787115464880

Spark大数据技术与应用 9787115464880

举报

可开发票,支持7天无理由

  • 出版时间: 
  • 装帧:    平装
  • 开本:    16开
  • ISBN:  9787115464880
  • 出版时间: 
  • 装帧:  平装
  • 开本:  16开

售价 33.18 6.7折

定价 ¥49.80 

品相 全新

优惠 满包邮

优惠 满减券
    运费
    本店暂时无法向该地区发货

    延迟发货说明

    时间:
    说明:

    上书时间2024-01-28

    数量
    仅1件在售,欲购从速
    微信扫描下方二维码
    微信扫描打开成功后,点击右上角”...“进行转发

    卖家超过10天未登录

    店铺等级
    资质认证
    90天平均
    成功完成
    91.19% (5935笔)
    好评率
    99.82%
    发货时间
    13.67小时
    店主
    地址
    四川省成都市双流区
    • 商品详情
    • 店铺评价
    立即购买 加入购物车 收藏
    手机购买
    微信扫码访问
    • 货号:
      1201659410
      商品描述:
      作者简介
      张良均,高 级信息系统项目管理师,泰迪杯全国大学生数据挖掘竞赛的发起人。华南师范大学、广东工业大学兼职教授,广东省工业与应用数学学会理事。兼有大型高科技企业和高校的工作经历,主要从事大数据挖掘及其应用的策划、研发及咨询培训。全国计算机技术与软件专业技术资格(水平)考试继续教育和CDA数据分析师培训讲师。发表数据挖掘相关论文数二十余篇,已取得国家发明12项,主编图书《神经网络实用教程》《数据挖掘:实用案例分析》《Python数据分析与挖掘》等多本畅销图书,主持并完成科技项目9项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景。

      目录
      第 1章Spark概述1
      任务1.1认识Spark1
      1.1.1Spark的发展1
      1.1.2Spark的特点2
      1.1.3Spark生态圈4
      1.1.4Spark的应用场景5
      任务1.2搭建Spark环境5
      1.2.1搭建单机版环境6
      1.2.2搭建单机伪分布式环境6
      1.2.3搭建完全分布式环境7
      任务1.3了解Spark运行架构与原理10
      1.3.1Spark集群架构11
      1.3.2Spark作业运行流程11
      1.3.3Spark核心数据集RDD15
      1.3.4Spark核心原理17
      小结19
      第 2章Scala基础20
      任务2.1Scala的简介与安装21
      2.1.1Scala简介21
      2.1.2Scala特性21
      2.1.3Scala的环境设置及安装21
      2.1.4运行Scala23
      任务2.2定义函数识别号码类型24
      2.2.1数据类型24
      2.2.2常量和变量25
      2.2.3表达式26
      2.2.4数组27
      2.2.5函数29
      2.2.6任务实现31
      任务2.3统计广州号码段数量32
      2.3.1if判断32
      2.3.2循环33
      2.3.3任务实现34
      任务2.4根据归属地对手机号码段分组34
      2.4.1List35
      2.4.2Set36
      2.4.3Map37
      2.4.4元组38
      2.4.5函数组合器38
      2.4.6任务实现39
      任务2.5编写手机号码归属地信息查询程序40
      2.5.1Scala类40
      2.5.2Scala object42
      2.5.3Scala模式匹配42
      2.5.4Scala读取文件44
      2.5.5任务实现44
      小结45
      实训45
      实训1编写函数过滤文本中的回文单词45
      实训2使用Scala编程输出杨辉三角46
      课后习题46
      第3章Spark编程48
      任务3.1以学生成绩数据创建RDD49
      3.1.1从内存中已有数据创建RDD50
      3.1.2从外部存储创建RDD51
      3.1.3任务实现52
      任务3.2查询学生成绩表中的前5名52
      3.2.1使用map转换数据52
      3.2.2使用sortBy()排序53
      3.2.3使用collect()查询53
      3.2.4使用flatMap转换数据54
      3.2.5使用take()方式查询某几个值54
      3.2.6任务实现55
      任务3.3输出单科成绩为100分的学生ID55
      3.3.1使用union()合并多个RDD56
      3.3.2使用filter()进行过滤56
      3.3.3使用distinct()进行去重56
      3.3.4简单的集合操作57
      3.3.5任务实现58
      任务3.4输出每位学生所有科目的总成绩58
      3.4.1键值对RDD简介59
      3.4.2创建键值对RDD59
      3.4.3转换操作keys与values59
      3.4.4转换操作reduceByKey()60
      3.4.5转换操作groupByKey()60
      3.4.6任务实现60
      任务3.5输出每位学生的平均成绩61
      3.5.1使用join()连接两个RDD61
      3.5.2使用zip组合两个RDD63
      3.5.3使用combineByKey合并相同键的值63
      3.5.4使用lookup查找指 定键的值64
      3.5.5任务实现64
      任务3.6将汇总后的学生成绩存储为文本文件65
      3.6.1JSON文件的读取与存储65
      3.6.2CSV文件的读取与存储67
      3.6.3SquenceFile的读取与存储69
      3.6.4文本文件的读取与存储70
      3.6.5任务实现71
      小结72
      实训72
      实训1统计文本中性别为“男”的用户数73
      实训2单词计数73
      课后习题74
      第4章Spark编程进阶76
      任务4.1搭建开发环境77
      4.1.1下载与安装IntelliJ IDEA77
      4.1.2Scala插件安装与使用79
      4.1.3配置Spark运行环境84
      4.1.4运行Spark程序85
      任务4.2使用移动平均预测股票涨跌92
      4.2.1持久化(缓存)93
      4.2.2数据分区94
      4.2.3计算价格波动幅度98
      4.2.4任务实现100
      小结103
      实训103
      实训竞赛网站访问日志分析104
      课后习题104
      第5章Spark SQL:结构化数据文件处理107
      任务5.1认识Spark SQL108
      5.1.1Spark SQL简介108
      5.1.2Spark SQL CLI配置109
      5.1.3Spark SQL与Shell交互110
      任务5.2掌握DataFrame基础操作111
      5.2.1创建DataFrame对象111
      5.2.2DataFrame查看数据114
      5.2.3DataFrame查询操作117
      5.2.4DataFrame输出操作123
      任务5.3探索分析法律服务网站数据125
      5.3.1获取数据125
      5.3.2网页类型分析126
      5.3.3点击次数分析131
      5.3.4网页排名分析133
      小结135
      实训135
      实训1统计分析航空公司客户数据的空值以及异常值135
      实训2统计分析某公司每年的产品销售量及销售额137
      课后习题139
      第6章Spark Streaming:实时计算框架141
      任务6.1初探Spark Streaming142
      6.1.1Spark Streaming概述142
      6.1.2Spark Streaming运行原理142
      6.1.3初步使用Spark Streaming143
      任务6.2掌握DStream编程模型145
      6.2.1DStream简介146
      6.2.2DStream转换操作146
      6.2.3DStream窗口操作148
      6.2.4DStream输出操作151
      任务6.3Spark Streaming实时更新热门博文155
      6.3.1Spark Streaming输入数据源155
      6.3.2Spark Streaming计算网页热度158
      6.3.3网页热度输出158
      6.3.4任务实现159
      小结161
      实训161
      实训1过滤打印包含单词error的记录162
      实训2实时过滤歌曲播放次数超过100次的记录并存储在HDFS上162
      课后习题162
      第7章Spark GraphX:图计算框架165
      任务7.1认识Spark GraphX166
      7.1.1图的基本概念166
      7.1.2图计算的应用167
      7.1.3GraphX的基础概念168
      7.1.4GraphX的发展168
      任务7.2了解GraphX常用API169
      7.2.1图的创建与存储169
      7.2.2数据查询与数据转换174
      7.2.3结构转换与关联聚合180
      任务7.3构建信任网络并找出目标用户187
      7.3.1构建网站信任网络188
      7.3.2找出需要支付稿酬的用户188
      7.3.3找出进入热门榜的用户189
      小结191
      实训191
      实训1使用PageRank算法完成网页排名191
      实训2利用二度关系完成商品推荐192
      课后习题194
      第8章Spark MLlib:功能强大的算法库196
      任务8.1了解MLlib算法库197
      8.1.1机器学习简介197
      8.1.2MLlib介绍198
      任务8.2以Logistic回归实现用户分类212
      8.2.1分析思路212
      8.2.2数据处理213
      8.2.3MLlib实现Logistic回归215
      8.2.4任务实现217
      小结221
      实训221
      实训1通过KMeans定位商圈221
      实训2朴素贝叶斯进行文本分类222
      课后习题223
      第9章项目案例:餐饮平台菜品智能推荐226
      任务9.1推荐方案设计227
      9.1.1用户数据分析227
      9.1.2常用推荐算法229
      9.1.3推荐流程设计231
      任务9.2数据预处理232
      9.2.1原始数据探索分析233
      9.2.2异常数据处理237
      9.2.3数据变换处理237
      9.2.4数据集分割239
      任务9.3建立推荐模型240
      9.3.1以基于用户的协同过滤算法建模240
      9.3.2以基于物品的协同过滤算法建模243
      9.3.3以基于Spark ALS的协同过滤算法建立模型246
      9.3.4推荐模型的评测251
      任务9.4使用模型进行菜品推荐262
      9.4.1对某用户推荐10道新菜品262
      9.4.2对所有用户进行新菜品推荐267
      小结272

      内容摘要
      本书以任务为导向,较为全面地介绍了Spark大数据技术的相关知识。全书共9章,具体内容包括Spark概述;Scala基础;Spark编程;Spark编程进阶;SparkSQL:结构化数据文件处理;SparkStreaming:实时计算框架;SparkGraphX:图计算框架;SparkMLlib:功能强大的算法库;项目案例:餐饮平台菜品智能推荐。本书的大部分章节都包含了实训与课后习题,通过练习和操作实践,帮助读者巩固所学的内容。

      配送说明

      ...

      相似商品

      为你推荐

    孔网啦啦啦啦啦纺织女工火锅店第三课

    开播时间:09月02日 10:30

    即将开播,去预约
    直播中,去观看