数据科学与大数据技术导论 大中专理科计算机 新华正版
举报
数据科学与大数据专业的导论专业基础教材。
-
作者:
作者
-
出版社:
清华大学出版社
-
ISBN:
9787302566762
-
出版时间:
2021-06
-
版次:
1
-
装帧:
平装
-
开本:
16开
-
页数:
328页
-
字数:
475千字
-
出版时间:
2021-06
-
版次:
1
-
装帧:
平装
-
开本:
16开
-
页数:
328页
-
字数:
475千字
售价
¥
40.80
6.9折
定价
¥59.00
品相
全新品相描述
上书时间2023-11-18
卖家超过10天未登录
手机购买
微信扫码访问
-
-
商品描述:
-
主编:
本书主要介绍大数据的基本概念和技术,是数据科学与大数据专业的门专业基础教材。
目录:
章数据科学与大数据技术概述/1
知识结构1
1.1数据科学简介1
1.1.1数据科学的产生与发展1
1.1.2数据科学的定义与方2
1.1.3数据科学的知识体系6
1.1.4数据科学、数据技术与数据工程7
1.2大数据的生态环境与概念8
1.2.1大数据的生态环境8
1.2.2大数据的概念9
1.3大数据处理周期12
1.3.1大数据处理的全过程12
1.3.2大数据技术的特征13
1.4大数据处理模式13
1.4.1离线处理模式14
1.4.2在线处理模式14
1.4.3交互处理模式19
1.5科学研究第四范式19
1.5.1科学研究范式产生与发展19
1.5.2数据密集型科学研究第四范式20
1.6大数据应用25
1.6.1大数据应用趋势25
1.6.2大数据应用评价与应用实例26
本章小结28
第2章hadoop大数据处理台/29
知识结构29
2.1mapreduce分布编程模型29
2.1.1mapreduce计算过程30
2.1.2基于mapreduce的计算举例30
2.2基于hadoop的分布计算30
2.2.1作业服务器31
2.2.2计算流程31
2.2.3mapreduce程序的执行过程33
2.3mapreduce程序设计分析35
2.3.1mapreduce模型编程方35
2.3.2单词程序设计36
2.4yarn大数据处理台40
2.4.1hadoop 1.0版本的缺点40
2.4.2轻量级弹计算台41
2.4.3基本概念与术语42
2.4.4mapreduce框架43
2.4.5编程模型44
2.4.6yarn基本架构与工作流程45
2.5spark大数据处理框架48
2.5.1spark的主要特点48
2.5.2软件栈48
2.5.3核心概念50
2.5.4rdd51
本章小结58
第3章大数据采集与存储管理/59
知识结构59
3.1大数据采集概述59
3.1.1大数据采集的定义与特点60
3.1.2大数据采集的挑战60
3.1.3传统数据采集与大数据采集的比较61
3.2大数据采集的方61
3.2.1传感器采集数据61
3.2.2系统志采集62
3.2.3数据库采集系统62
3.2.4网页数据采集62
3.3大数据存储架构与系统79
3.3.1数据层79
3.3.2分布式文件系统80
3.4基于大数据的数据库系统82
3.4.1大数据存储管理技术82
3.4.2大数据库83
3.4.3大数据存储管理的核心算88
3.5hbase数据库94
3.5.1hbase概述94
3.5.2hbase的数据模型97
3.5.3hbase的逻辑实体98
3.5.4hbase的工作100
3.6hive数据仓库100
3.6.1hive主要功能101
3.6.2hive的数据单元与数据类型101
3.6.3hive的特102
3.6.4hive应用举例102
3.6.5hbase与hive的比较102
本章小结103
第4章大数据抽取/104
知识结构104
4.1大数据抽取概述105
4.1.1数据抽取的定义105
4.1.2数据抽取程序105
4.1.3数据抽取方式106
4.2增量数据抽取技术106
4.2.1增量数据抽取的特点与策略106
4.2.2基于时间戳的增量数据抽取方式107
4.2.3全表比对抽取方107
4.3数据源109
4.3.1公开数据库109
4.3.2利用网络爬虫获得数据110
4.3.3数据交易台110
4.3.4网络指数110
4.4基于hadoop台的大数据抽取110
4.4.1将数据导入hadoop台110
4.4.2将数据从csv文件导入hive表111
4.4.3将关系数据导入hdfs的方114
4.4.4csv文件的读取和写入119
4.4.5flume获取志文件123
4.5大数据抽取的应用126
4.5.1应用实例126
4.5.2非关系数据库中的数据抽取软件简介126
本章小结128
第5章大数据清洗/129
知识结构129
5.1数据质量与数据清洗129
5.1.1数据质量129
5.1.2数据质量提高技术132
5.1.3数据清洗算的标准135
5.1.4数据清洗的过程与模型136
5.2不完整数据清洗136
5.2.1基本方136
5.2.2基于k-nn近邻缺失数据的填充算138
5.3异常数据清洗140
5.3.1异常值的检测141
5.3.2统计学方141
5.3.3基于邻近度的离群点检测145
5.4重复数据清洗146
5.4.1使用字段相似度识别重复值算146
5.4.2快速去重算147
5.5文本清洗149
5.5.1字符串匹配算149
5.5.2文本相似度度量方153
5.6数据清洗的实现157
5.6.1数据清洗的步骤157
5.6.2数据清洗程序158
本章小结160
第6章数据转换/161
知识结构161
6.1基本的数据转换161
6.1.1对数转换161
6.1.2方根转换163
6.1.3方转换163
6.1.4倒数变换163
6.2数据滑163
6.2.1移动均164
6.2.2指数滑166
6.2.3分箱滑171
6.3数据规范化172
6.3.1小-优选规范化方173
6.3.2z分数规范化方173
6.3.3小数定标规范化方174
6.3.4数据规范化程序174
本章小结176
第7章大数据约简/177
知识结构177
7.1特征约简178
7.1.1特征构造178
7.1.2特征提取179
7.1.3特征选择180
7.2样本约简187
7.2.1抽样187
7.2.2系统抽样187
7.2.3分层抽样187
7.3数据立方体188
7.3.1多维数据模型188
7.3.2多维数据模型的模式190
7.3.3数据立方体聚集191
7.4属子集选择算192
7.4.1逐步向前选择属193
7.4.2逐步向后删除属193
7.4.3混合式选择193
7.4.4判定树归纳193
7.5数值约简194
7.5.1有参数值约简194
7.5.2无参数值约简195
7.6概念分层与数值离散化196
7.6.1概念分层196
7.6.2数值离散化方198
本章小结202
第8章大数据集成/203
知识结构203
8.1数据集成技术概述203
8.1.1数据集成的概念与相关问题204
8.1.2数据集成的核心问题206
8.1.3数据集成的分类207
8.2数据迁移209
8.2.1在组织移动数据210
8.2.2非结构化数据集成211
8.2.3将处理移动到数据端212
8.3数据集成模式213
8.3.1联邦数据库集成模式213
8.3.2中间件集成模式214
8.3.3数据仓库集成模式215
8.4数据集成系统216
8.4.1全局模式217
8.4.2语义映217
8.4.3查询重写218
8.5数据集成系统的构建218
8.5.1模式之间映关系的生成218
8.5.2适应查询219
8.5.3xml219
8.5.4p2p数据管理219
本章小结220
第9章大数据分析/221
知识结构221
9.1大数据分析概述221
9.1.1几种常用的大数据分析方222
9.1.2数字特征223
9.1.3统计方229
9.1.4常用的抽样组织形式230
9.2相关分析230
9.2.1相关系数231
9.2.2相关分析的任务231
9.2.3相关分析的过程232
9.3回归分析233
9.3.1回归分析过程233
9.3.2回归分析类型233
9.3.3回归模型与应用中的问题233
9.4判别分析234
9.4.1判别函数234
9.4.2判别分析方235
9.5显著检验238
9.5.1显著检验的基本思想238
9.5.2检验步骤与检验方239
9.6主成分分析240
9.6.1主成分分析240
9.6.2主成分分析方举例240
9.6.3主成分分析python程序243
本章小结246
0章大数据挖掘/247
知识结构247
10.1大数据挖掘概述247
10.1.1数据统计分析与数据挖掘的主要区别248
10.1.2数据挖掘的定义与相关概念248
10.1.3数据挖掘的理论基础248
10.1.4基于数据存储方式的数据挖掘249
10.2关联规则251
10.2.1关联规则生成描述251
10.2.2频繁项目集生成算252
10.3分类256
10.3.1分类的定义与典型的分类算256
10.3.2分类的基本步骤258
10.3.3k-近邻分类算258
10.4聚类方260
10.4.1聚类的概念260
10.4.2聚类算的特点261
10.4.3聚类算分类262
10.4.4距离与相似的度量263
10.4.5划分聚类方264
10.4.6层次聚类方267
10.5序列模式268
10.5.1时间序列268
10.5.2时间序列挖掘的常用方268
10.5.3序列模式挖掘269
10.6非结构化文本数据挖掘271
10.6.1用户反馈文本271
10.6.2用户反馈文本挖掘过程272
10.6.3文本的自然语言处理274
本章小结275
1章数据可视化与可视分析/276
知识结构276
11.1数据可视化概述276
11.1.1数据可视化概念277
11.1.2感知与认知277
11.1.3可视化突出点与设计原则279
11.2大数据可视化工具与软件280
11.2.1matplotlib简介281
11.2.2多图形和多坐标系284
11.2.3创建子图285
11.3绘制图形286
11.3.1折线绘制286
11.3.2散点图289
11.3.3泡泡图绘制290
11.3.4条形图绘制293
11.3.5直方图绘制295
11.3.6饼图绘制297
11.3.7轮廓图绘制300
11.3.8雷达图300
11.4大数据可视化302
11.4.1文本可视化302
11.4.2网络(图)可视化303
11.4.3时空数据可视化305
11.4.4多维数据可视化306
11.5大数据可视分析307
11.5.1可视分析的理论基础308
11.5.2大数据可视分析技术312
本章小结315
参文献/316
内容简介:
大数据技术凝集了多学科的研究成果,是一门多学科的交融合技术。随着科学技术的发展,大数据技术发展更为迅速,应用更为深入与广泛,并凸显其巨大潜力和应用价值。“数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的走进大数据技术的大门。本书主要介绍数据科学与大数据技术的基本知识。全书共分11章,包括数据科学与大数据技术概述、hadoop大数据处理台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。本书语言精练,内容完整,案例丰富,可作为高等院校“数据科学与大数据技术导论”课程的教材,也可作为学数据科学与大数据技术人员的参书。
作者简介:
教授,博士生导师。研究领域为分布计算、计算智能、大数据技术等。中国石油大学(北京)计算机科学与技术系创始系主任。获北京市名师奖。教育认证专家。
孔网啦啦啦啦啦纺织女工火锅店第三课
开播时间:09月02日 10:30
即将开播,去预约
直播中,去观看