数据科学与大数据技术导论大中专理科计算机新华正版

数据科学与大数据专业的导论专业基础教材。

作者: 作者
出版社: 清华大学出版社
ISBN: 9787302566762
出版时间: 2021-06
版次: 1

装帧: 平装
开本: 16开
页数: 328页
字数: 475千字

作者: 作者
出版社: 清华大学出版社
ISBN: 9787302566762

出版时间: 2021-06
版次: 1
装帧: 平装

开本: 16开
页数: 328页
字数: 475千字

售价 40.80 6.9折

定价￥59.00

品相全新品相描述

优惠

运费

本店暂时无法向该地区发货

延迟发货说明

时间：

说明：

上书时间2023-11-18

数量: 仅1件在售，欲购从速

立即购买加入购物车收藏

卖家超过10天未登录

商品详情
店铺评价

手机购买

微信扫码访问

商品分类：

计算机与互联网

货号：

xhwx_1202411562

品相描述：全新

正版特价新书

商品描述：

主编：

本书主要介绍大数据的基本概念和技术，是数据科学与大数据专业的门专业基础教材。

目录：

章数据科学与大数据技术概述/1

知识结构1

1.1数据科学简介1

1.1.1数据科学的产生与发展1

1.1.2数据科学的定义与方2

1.1.3数据科学的知识体系6

1.1.4数据科学、数据技术与数据工程7

1.2大数据的生态环境与概念8

1.2.1大数据的生态环境8

1.2.2大数据的概念9

1.3大数据处理周期12

1.3.1大数据处理的全过程12

1.3.2大数据技术的特征13

1.4大数据处理模式13

1.4.1离线处理模式14

1.4.2在线处理模式14

1.4.3交互处理模式19

1.5科学研究第四范式19

1.5.1科学研究范式产生与发展19

1.5.2数据密集型科学研究第四范式20

1.6大数据应用25

1.6.1大数据应用趋势25

1.6.2大数据应用评价与应用实例26

本章小结28

第2章hadoop大数据处理台/29

知识结构29

2.1mapreduce分布编程模型29

2.1.1mapreduce计算过程30

2.1.2基于mapreduce的计算举例30

2.2基于hadoop的分布计算30

2.2.1作业服务器31

2.2.2计算流程31

2.2.3mapreduce程序的执行过程33

2.3mapreduce程序设计分析35

2.3.1mapreduce模型编程方35

2.3.2单词程序设计36

2.4yarn大数据处理台40

2.4.1hadoop 1.0版本的缺点40

2.4.2轻量级弹计算台41

2.4.3基本概念与术语42

2.4.4mapreduce框架43

2.4.5编程模型44

2.4.6yarn基本架构与工作流程45

2.5spark大数据处理框架48

2.5.1spark的主要特点48

2.5.2软件栈48

2.5.3核心概念50

2.5.4rdd51

本章小结58

第3章大数据采集与存储管理/59

知识结构59

3.1大数据采集概述59

3.1.1大数据采集的定义与特点60

3.1.2大数据采集的挑战60

3.1.3传统数据采集与大数据采集的比较61

3.2大数据采集的方61

3.2.1传感器采集数据61

3.2.2系统志采集62

3.2.3数据库采集系统62

3.2.4网页数据采集62

3.3大数据存储架构与系统79

3.3.1数据层79

3.3.2分布式文件系统80

3.4基于大数据的数据库系统82

3.4.1大数据存储管理技术82

3.4.2大数据库83

3.4.3大数据存储管理的核心算88

3.5hbase数据库94

3.5.1hbase概述94

3.5.2hbase的数据模型97

3.5.3hbase的逻辑实体98

3.5.4hbase的工作100

3.6hive数据仓库100

3.6.1hive主要功能101

3.6.2hive的数据单元与数据类型101

3.6.3hive的特102

3.6.4hive应用举例102

3.6.5hbase与hive的比较102

本章小结103

第4章大数据抽取/104

知识结构104

4.1大数据抽取概述105

4.1.1数据抽取的定义105

4.1.2数据抽取程序105

4.1.3数据抽取方式106

4.2增量数据抽取技术106

4.2.1增量数据抽取的特点与策略106

4.2.2基于时间戳的增量数据抽取方式107

4.2.3全表比对抽取方107

4.3数据源109

4.3.1公开数据库109

4.3.2利用网络爬虫获得数据110

4.3.3数据交易台110

4.3.4网络指数110

4.4基于hadoop台的大数据抽取110

4.4.1将数据导入hadoop台110

4.4.2将数据从csv文件导入hive表111

4.4.3将关系数据导入hdfs的方114

4.4.4csv文件的读取和写入119

4.4.5flume获取志文件123

4.5大数据抽取的应用126

4.5.1应用实例126

4.5.2非关系数据库中的数据抽取软件简介126

本章小结128

第5章大数据清洗/129

知识结构129

5.1数据质量与数据清洗129

5.1.1数据质量129

5.1.2数据质量提高技术132

5.1.3数据清洗算的标准135

5.1.4数据清洗的过程与模型136

5.2不完整数据清洗136

5.2.1基本方136

5.2.2基于k-nn近邻缺失数据的填充算138

5.3异常数据清洗140

5.3.1异常值的检测141

5.3.2统计学方141

5.3.3基于邻近度的离群点检测145

5.4重复数据清洗146

5.4.1使用字段相似度识别重复值算146

5.4.2快速去重算147

5.5文本清洗149

5.5.1字符串匹配算149

5.5.2文本相似度度量方153

5.6数据清洗的实现157

5.6.1数据清洗的步骤157

5.6.2数据清洗程序158

本章小结160

第6章数据转换/161

知识结构161

6.1基本的数据转换161

6.1.1对数转换161

6.1.2方根转换163

6.1.3方转换163

6.1.4倒数变换163

6.2数据滑163

6.2.1移动均164

6.2.2指数滑166

6.2.3分箱滑171

6.3数据规范化172

6.3.1小-优选规范化方173

6.3.2z分数规范化方173

6.3.3小数定标规范化方174

6.3.4数据规范化程序174

本章小结176

第7章大数据约简/177

知识结构177

7.1特征约简178

7.1.1特征构造178

7.1.2特征提取179

7.1.3特征选择180

7.2样本约简187

7.2.1抽样187

7.2.2系统抽样187

7.2.3分层抽样187

7.3数据立方体188

7.3.1多维数据模型188

7.3.2多维数据模型的模式190

7.3.3数据立方体聚集191

7.4属子集选择算192

7.4.1逐步向前选择属193

7.4.2逐步向后删除属193

7.4.3混合式选择193

7.4.4判定树归纳193

7.5数值约简194

7.5.1有参数值约简194

7.5.2无参数值约简195

7.6概念分层与数值离散化196

7.6.1概念分层196

7.6.2数值离散化方198

本章小结202

第8章大数据集成/203

知识结构203

8.1数据集成技术概述203

8.1.1数据集成的概念与相关问题204

8.1.2数据集成的核心问题206

8.1.3数据集成的分类207

8.2数据迁移209

8.2.1在组织移动数据210

8.2.2非结构化数据集成211

8.2.3将处理移动到数据端212

8.3数据集成模式213

8.3.1联邦数据库集成模式213

8.3.2中间件集成模式214

8.3.3数据仓库集成模式215

8.4数据集成系统216

8.4.1全局模式217

8.4.2语义映217

8.4.3查询重写218

8.5数据集成系统的构建218

8.5.1模式之间映关系的生成218

8.5.2适应查询219

8.5.3xml219

8.5.4p2p数据管理219

本章小结220

第9章大数据分析/221

知识结构221

9.1大数据分析概述221

9.1.1几种常用的大数据分析方222

9.1.2数字特征223

9.1.3统计方229

9.1.4常用的抽样组织形式230

9.2相关分析230

9.2.1相关系数231

9.2.2相关分析的任务231

9.2.3相关分析的过程232

9.3回归分析233

9.3.1回归分析过程233

9.3.2回归分析类型233

9.3.3回归模型与应用中的问题233

9.4判别分析234

9.4.1判别函数234

9.4.2判别分析方235

9.5显著检验238

9.5.1显著检验的基本思想238

9.5.2检验步骤与检验方239

9.6主成分分析240

9.6.1主成分分析240

9.6.2主成分分析方举例240

9.6.3主成分分析python程序243

本章小结246

0章大数据挖掘/247

知识结构247

10.1大数据挖掘概述247

10.1.1数据统计分析与数据挖掘的主要区别248

10.1.2数据挖掘的定义与相关概念248

10.1.3数据挖掘的理论基础248

10.1.4基于数据存储方式的数据挖掘249

10.2关联规则251

10.2.1关联规则生成描述251

10.2.2频繁项目集生成算252

10.3分类256

10.3.1分类的定义与典型的分类算256

10.3.2分类的基本步骤258

10.3.3k-近邻分类算258

10.4聚类方260

10.4.1聚类的概念260

10.4.2聚类算的特点261

10.4.3聚类算分类262

10.4.4距离与相似的度量263

10.4.5划分聚类方264

10.4.6层次聚类方267

10.5序列模式268

10.5.1时间序列268

10.5.2时间序列挖掘的常用方268

10.5.3序列模式挖掘269

10.6非结构化文本数据挖掘271

10.6.1用户反馈文本271

10.6.2用户反馈文本挖掘过程272

10.6.3文本的自然语言处理274

本章小结275

1章数据可视化与可视分析/276

知识结构276

11.1数据可视化概述276

11.1.1数据可视化概念277

11.1.2感知与认知277

11.1.3可视化突出点与设计原则279

11.2大数据可视化工具与软件280

11.2.1matplotlib简介281

11.2.2多图形和多坐标系284

11.2.3创建子图285

11.3绘制图形286

11.3.1折线绘制286

11.3.2散点图289

11.3.3泡泡图绘制290

11.3.4条形图绘制293

11.3.5直方图绘制295

11.3.6饼图绘制297

11.3.7轮廓图绘制300

11.3.8雷达图300

11.4大数据可视化302

11.4.1文本可视化302

11.4.2网络（图）可视化303

11.4.3时空数据可视化305

11.4.4多维数据可视化306

11.5大数据可视分析307

11.5.1可视分析的理论基础308

11.5.2大数据可视分析技术312

本章小结315

参文献/316

内容简介：

大数据技术凝集了多学科的研究成果，是一门多学科的交融合技术。随着科学技术的发展，大数据技术发展更为迅速，应用更为深入与广泛，并凸显其巨大潜力和应用价值。“数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的走进大数据技术的大门。本书主要介绍数据科学与大数据技术的基本知识。全书共分11章，包括数据科学与大数据技术概述、hadoop大数据处理台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。本书语言精练，内容完整，案例丰富，可作为高等院校“数据科学与大数据技术导论”课程的教材，也可作为学数据科学与大数据技术人员的参书。

作者简介：

教授，博士生导师。研究领域为分布计算、计算智能、大数据技术等。中国石油大学（北京）计算机科学与技术系创始系主任。获北京市名师奖。教育认证专家。
配送说明

...
相似商品
为你推荐

孔网分类

图书

图书

数据科学与大数据技术导论 大中专理科计算机 新华正版

孔网啦啦啦啦啦纺织女工火锅店第三课

数据科学与大数据技术导论大中专理科计算机新华正版