数据科学与大数据技术导论

正版新书开电子发票

作者: 陈明
出版社: 清华大学出版社
ISBN: 9787302566762

出版时间: 2021-06
装帧: 平装
开本: 16开

作者: 陈明
出版社: 清华大学出版社

ISBN: 9787302566762
出版时间: 2021-06

装帧: 平装
开本: 16开

售价 41.68 7.1折

定价￥59.00

品相全新

优惠

运费

本店暂时无法向该地区发货

延迟发货说明

时间：

说明：

上书时间2024-03-15

数量: 仅1件在售，欲购从速

立即购买加入购物车收藏

卖家超过10天未登录

商品详情
店铺评价

手机购买

微信扫码访问

商品分类：

综合性图书

货号：

1202411562

商品描述：

前言

大数据技术的精髓是从大数据中产生新见解，识别复杂关系和做出越来越精准的预测。
大数据技术是现代科学与技术发展，尤其是计算机科学技术发展的重要成果和结晶，是计算机科学发展史的又一个新的里程碑。大数据的出现对计算机等许多领域产生了挑战与冲击，推动了计算机科学技术的发展。
大数据技术凝集了多学科的研究成果，是一门多学科交叉融合的技术。随着科学技术的发展，大数据技术发展更为迅速，应用更为深入与广泛，并凸显其巨大潜力和应用价值。
“数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。为此，本书内容的组织宽泛，以大数据技术为核心展开。从大数据的基本概念与特点到大数据处理平台(Hadoop、Spark)，从数据获取、清洗、抽取、约简、转换、集成、统计分析、挖掘，到获得结果的全过程都进行了介绍。学生通过上述内容的学习，可以为后续课程的学习奠定坚实的基础。
本书在内容方面，注重大数据技术的基本概念、模型、结构和方法的清晰描述。对主要的算法，如分类算法、聚类算法等典型重要的算法给出了形式化描述，并给出了Python代码。
本书在结构上为积木状，各章内容独立地进行概念性与方法性论述。出于篇幅考虑，书中所提及定理没有给出证明，如需要可以查阅相关文献。
由于作者水平有限，书中不足之处在所难免，敬请读者批评指正。
编者 2021年1月

商品简介

大数据技术凝集了多学科的研究成果，是一门多学科的交叉融合技术。随着科学技术的发展，大数据技术发展更为迅速，应用更为深入与广泛，并凸显其巨大潜力和应用价值。 “数据科学与大数据技术导论”是数据科学与大数据技术专业的门专业基础课程。这门课程可以引导数据科学与大数据技术专业的学生走进大数据技术的大门。本书主要介绍数据科学与大数据技术的基本知识。全书共分11章，包括数据科学与大数据技术概述、Hadoop大数据处理平台、大数据采集与存储管理、大数据抽取、大数据清洗、数据转换、大数据约简、大数据集成、大数据分析、大数据挖掘、数据可视化与可视分析等内容。本书语言精练，内容完整，案例丰富，可作为高等院校“数据科学与大数据技术导论”课程的教材，也可作为学习数据科学与大数据技术人员的参考书。

作者简介

教授，博士生导师。研究领域为分布计算、计算智能、大数据技术等。中国石油大学（北京）计算机科学与技术系创始系主任。获北京市教学名师奖。中国工程教育认证专家。

目录

第1章数据科学与大数据技术概述/1知识结构11.1数据科学简介11.1.1数据科学的产生与发展11.1.2数据科学的定义与方法21.1.3数据科学的知识体系61.1.4数据科学、数据技术与数据工程71.2大数据的生态环境与概念81.2.1大数据的生态环境81.2.2大数据的概念91.3大数据处理周期121.3.1大数据处理的全过程121.3.2大数据技术的特征131.4大数据处理模式131.4.1离线处理模式141.4.2在线处理模式141.4.3交互处理模式191.5科学研究第四范式191.5.1科学研究范式产生与发展191.5.2数据密集型科学研究第四范式201.6大数据应用251.6.1大数据应用趋势251.6.2大数据应用评价与应用实例26本章小结28第2章Hadoop大数据处理ping台/29知识结构292.1MapReduce分布编程模型292.1.1MapReduce计算过程302.2.1作业服务器312.2.2计算流程312.2.3MapReduce程序的执行过程332.3MapReduce程序设计分析352.3.1MapReduce模型编程方法352.3.2单词计数程序设计362.4YARN大数据处理ping台402.4.1Hadoop 1.0版本的缺点402.4.2轻量级弹性计算ping台412.4.3基本概念与术语422.4.4MapReduce框架432.4.5编程模型442.4.6YARN基本架构与工作流程452.5Spark大数据处理框架482.5.1Spark的主要特点482.5.2软件栈482.5.3核心概念502.5.4RDD51本章小结58第3章大数据采集与存储管理/59知识结构593.1大数据采集概述593.1.1大数据采集的定义与特点603.1.2大数据采集的挑战603.1.3传统数据采集与大数据采集的比较613.2大数据采集的方法613.2.1传感器采集数据613.2.2系统日志采集623.2.3数据库采集系统623.2.4网页数据采集623.3大数据存储架构与系统793.3.1数据层793.3.2分布式文件系统803.4基于大数据的数据库系统823.4.1大数据存储管理技术823.4.2大数据库833.4.3大数据存储管理的核心算法883.5HBase数据库943.5.1HBase概述943.5.2HBase的数据模型973.5.3HBase的逻辑实体983.5.4HBase的工作原理1003.6Hive数据仓库1003.6.1Hive主要功能1013.6.2Hive的数据单元与数据类型1013.6.3Hive的特性1023.6.4Hive应用举例1023.6.5HBase与Hive的比较102本章小结103第4章大数据抽取/104知识结构1044.1大数据抽取概述1054.1.1数据抽取的定义1054.1.2数据抽取程序1054.1.3数据抽取方式1064.2增量数据抽取技术1064.2.1增量数据抽取的特点与策略1064.2.2基于时间戳的增量数据抽取方式1074.2.3全表比对抽取方法1074.3数据源1094.3.1公开数据库1094.3.2利用网络爬虫获得数据1104.3.3数据交易ping台1104.3.4网络指数1104.4基于Hadoopping台的大数据抽取1104.4.1将数据导入Hadoopping台1104.4.2将数据从CSV文件导入Hive表1114.4.3将关系数据导入HDFS的方法1144.4.4CSV文件的读取和写入1194.4.5Flume获取日志文件1234.5大数据抽取的应用1264.5.1应用实例1264.5.2非关系数据库中的数据抽取软件简介126本章小结128第5章大数据清洗/129知识结构1295.1数据质量与数据清洗1295.1.1数据质量1295.1.2数据质量提高技术1325.1.3数据清洗算法的标准1355.1.4数据清洗的过程与模型1365.2不完整数据清洗1365.2.1基本方法1365.2.2基于kNN近邻缺失数据的填充算法1385.3异常数据清洗1405.3.1异常值的检测1415.3.2统计学方法1415.3.3基于邻近度的离群点检测1455.4重复数据清洗1465.4.1使用字段相似度识别重复值算法1465.4.2快速去重算法1475.5文本清洗1495.5.1字符串匹配算法1495.5.2文本相似度度量方法1535.6数据清洗的实现1575.6.1数据清洗的步骤1575.6.2数据清洗程序158本章小结160第6章数据转换/161知识结构1616.1基本的数据转换1616.1.1对数转换1616.1.2ping方根转换1636.1.3ping方转换1636.1.4倒数变换1636.2数据ping滑1636.2.1移动ping均法1646.2.2指数ping滑法1666.2.3分箱ping滑法1716.3数据规范化1726.3.1#小#大规范化方法1736.3.2z分数规范化方法1736.3.3小数定标规范化方法1746.3.4数据规范化程序174本章小结176第7章大数据约简/177知识结构1777.1特征约简1787.1.1特征构造1787.1.2特征提取1797.1.3特征选择1807.2样本约简1877.2.1随机抽样1877.2.2系统抽样1877.2.3分层抽样1877.3数据立方体1887.3.1多维数据模型1887.3.2多维数据模型的模式1907.3.3数据立方体聚集1917.4属性子集选择算法1927.4.1逐步向前选择属性1937.4.2逐步向后删除属性1937.4.3混合式选择1937.4.4判定树归纳1937.5数值约简1947.5.1有参数值约简1947.5.2无参数值约简1957.6概念分层与数值离散化1967.6.1概念分层1967.6.2数值离散化方法198本章小结202第8章大数据集成/203知识结构2038.1数据集成技术概述2038.1.1数据集成的概念与相关问题2048.1.2数据集成的核心问题2068.1.3数据集成的分类2078.2数据迁移2098.2.1在组织内部移动数据2108.2.2非结构化数据集成2118.2.3将处理移动到数据端2128.3数据集成模式2138.3.1联邦数据库集成模式2138.3.2中间件集成模式2148.3.3数据仓库集成模式2158.4数据集成系统2168.4.1全局模式2178.4.2语义映射2178.4.3查询重写2188.5数据集成系统的构建2188.5.1模式之间映射关系的生成2188.5.2适应性查询2198.5.3XML2198.5.4P2P数据管理219本章小结220第9章大数据分析/221知识结构2219.1大数据分析概述2219.1.1几种常用的大数据分析方法2229.1.2数字特征2239.1.3统计方法2299.1.4常用的抽样组织形式2309.2相关分析2309.2.1相关系数2319.2.2相关分析的任务2319.2.3相关分析的过程2329.3回归分析2339.3.1回归分析过程2339.3.2回归分析类型2339.3.3回归模型与应用中的问题2339.4判别分析2349.4.1判别函数2349.4.2判别分析方法2359.5显著性检验2389.5.1显著性检验的基本思想2389.5.2检验步骤与检验方法2399.6主成分分析2409.6.1主成分分析原理2409.6.2主成分分析方法举例2409.6.3主成分分析Python程序243本章小结246第10章大数据挖掘/247知识结构24710.1大数据挖掘概述24710.1.1数据统计分析与数据挖掘的主要区别24810.1.2数据挖掘的定义与相关概念24810.1.3数据挖掘的理论基础24810.1.4基于数据存储方式的数据挖掘24910.2关联规则25110.2.1关联规则生成描述25110.2.2频繁项目集生成算法25210.3分类25610.3.1分类的定义与典型的分类算法25610.3.2分类的基本步骤25810.3.3k近邻分类算法25810.4聚类方法26010.4.1聚类的概念26010.4.2聚类算法的特点26110.4.3聚类算法分类26210.4.4距离与相似性的度量26310.4.5划分聚类方法26410.4.6层次聚类方法26710.5序列模式26810.5.1时间序列26810.5.2时间序列挖掘的常用方法26810.5.3序列模式挖掘26910.6非结构化文本数据挖掘27110.6.1用户反馈文本27110.6.2用户反馈文本挖掘过程27210.6.3文本的自然语言处理274本章小结275第11章数据可视化与可视分析/276知识结构27611.1数据可视化概述27611.1.1数据可视化概念27711.1.2感知与认知27711.1.3可视化突出点与设计原则27911.2大数据可视化工具与软件28011.2.1Matplotlib简介28111.2.2多图形和多坐标系28411.2.3创建子图28511.3绘制图形28611.3.1折线绘制28611.3.2散点图28911.3.3泡泡图绘制29011.3.4条形图绘制29311.3.5直方图绘制29511.3.6饼图绘制29711.3.7轮廓图绘制30011.3.8雷达图30011.4大数据可视化30211.4.1文本可视化30211.4.2网络（图）可视化30311.4.3时空数据可视化30511.4.4多维数据可视化30611.5大数据可视分析30711.5.1可视分析的理论基础30811.5.2大数据可视分析技术312本章小结315参考文献/316
【前言】

主编推荐

本书主要介绍大数据的基本概念和技术，是数据科学与大数据专业的门专业基础教材。
【内容简介】
配送说明

...
相似商品
为你推荐

孔网分类

图书

图书

数据科学与大数据技术导论

孔网啦啦啦啦啦纺织女工火锅店第三课