成功加入购物车
图书条目标准图
套装书请联系客服咨询,默认发一本
安俊秀 、 靳宇倡 、 郭英 著 / 人民邮电出版社 / 2020-09 / 平装
售价 ¥ 8.63 1.5折
定价 ¥56.00
品相 九品
优惠 满包邮
延迟发货说明
上书时间2023-08-25
卖家超过10天未登录
Hadoop大数据处理技术基础与实践(第2版)(微课版)
全书共有12章,从Hadoop概述开始,介绍了Hadoop的安装与配置管理,并对Hadoop的生态体系架构进行了介绍,包括HDFS技术、YARN技术、MapReduce技术、Hadoop I/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive、分布式数据分析工具Pig,以及数据迁移工具Sqoop,最后对大数据实时处理技术做了简单介绍,旨在让读者了解当前其他的大数据处理技术。
本书除了介绍Hadoop的理论外,还介绍了如何使用各组件,但因为只是介绍基础的使用,没有涉及底层的高级内容,所以本书只是起引导作用,旨在让读者了解Hadoop并能够使用Hadoop的基本功能,并不是学习Hadoop的完全手册。
本书适合作为高等院校、高等职业院校大数据、物联网、云计算及其他计算机相关专业的教材,也可供云计算与大数据技术相关的培训班使用。
安俊秀,教授,成都信息工程大学教师。2004年7月从西安交通大学计算机科学与技术专业毕业,获工学硕士学位。中国计算机学会高级会员;中国电子学会高级会员;成都市科技攻关计划评审专家;成都军区项目评审专家;汕尾市科技顾问团首席顾问。 在教学上,严格要求自己,勤奋钻研、不断提升教学水平,给更多学生以帮助和爱护。于1993年毕业进入山西大学商务学院任教,2006年底调入成都信息工程大学任教。最近三年,先后承担了《Linux体系和编程》、《软件项目管理》、《工程导论》、《计算机组成原理》等本科课程;承担了《云计算与大数据》、《并行计算》、《Hadoop处理技术》等研究生课程,学校考核均为优。 在科研工作方面,一直从事云计算与大数据、信息智能搜索与计算社会方面的研究工作。近三年发表论文20余篇,其中第一作者10余篇,核心期刊以上占5篇。独立完成专著1部,编著教材1部和参与编著教材1部,主编教材1部。获得国家发明专利2项(2014授权),实用新型专利授权12项。获得软件著作权13项。科研项目10项。2015年获四川省社科高水平研究团队称号。
第 1章Hadoop概述 11.1 Hadoop简介 11.2 Hadoop体系架构 31.3 Hadoop与分布式开发 41.4 Hadoop行业应用案例分析 61.4.1 Hadoop在门户网站的应用 61.4.2 Hadoop在搜索引擎中的应用 61.4.3 Hadoop在电商平台中的应用 7习题 7第 2章Hadoop的安装与配置管理 82.1 实验准备 82.2 配置一个单节点环境 92.2.1 运行一个虚拟环境CentOS 92.2.2 配置网络 112.2.3 创建新的用户组和用户 142.2.4 上传文件到CentOS并配置Java和Hadoop环境 152.2.5 修改Hadoop 2.7配置文件 182.2.6 修改CentOS主机名 212.2.7 绑定hostname与IP 212.2.8 关闭防火墙 222.3 节点之间的免密码通信 222.3.1 什么是SSH 222.3.2 复制虚拟机节点 232.3.3 配置SSH免密码登录 242.4 Hadoop的启动和测试 262.4.1 格式化文件系统 262.4.2 启动HDFS 272.4.3 启动YARN 282.4.4 启动JobHistory Server 282.4.5 集群验证 292.4.6 需要了解的默认配置 302.5 动态管理节点 312.5.1 动态增加和删除DataNode 312.5.2 动态修改TaskTracker 32习题 33第3章HDFS技术 353.1 HDFS的特点 353.2 HDFS架构 363.2.1 数据块 363.2.2 NameNode与DataNode 383.2.3 辅助NameNode 393.2.4 安全模式 413.2.5 负载均衡 413.2.6 垃圾回收 423.3 HDFS Shell命令 423.3.1 文件处理命令 433.3.2 dfsadmin命令 483.3.3 NameNode命令 493.3.4 fsck命令 503.3.5 pipes命令 503.3.6 job命令 513.4 HDFS中Java API的使用 523.4.1 上传文件 523.4.2 新建文件 543.4.3 查看文件详细信息 553.4.4 下载文件 563.5 RPC通信 573.5.1 反射机制 573.5.2 代理模式与动态代理 603.5.3 Hadoop RPC机制与源码分析 62习题 66第4章YARN技术 674.1 YARN概述 674.1.1 YARN产生背景――MRv1的局限性 674.1.2 YARN的通信协议 684.2 YARN基本框架 694.2.1 RM进程 694.2.2 NM进程 704.2.3 AM进程 704.2.4 YARN的资源表示模型Container 704.3 YARN资源调度器 714.3.1 FIFO调度器 714.3.2 Capacity调度器 714.3.3 Fair调度器 724.4 YARN的工作流程 724.5 YARN的实战案例 74习题 77第5章MapReduce技术 785.1 什么是MapReduce 785.2 MapReduce编程模型 795.2.1 MapReduce简介 795.2.2 MapReduce简单模型 795.2.3 MapReduce复杂模型 805.2.4 MapReduce编程实例――WordCount 815.3 MapReduce数据流 825.3.1 分片并格式化原始数据(InputFormat) 825.3.2 Map过程 845.3.3 Shuffle过程 845.3.4 Reduce过程 895.3.5 按指定格式写入文件(OutputFormat) 895.4 MapReduce任务流程 905.5 MapReduce的Streaming和Pipe 915.5.1 Hadoop Streaming 915.5.2 Hadoop Pipe 925.6 MapReduce性能调优 945.7 MapReduce实战 965.7.1 快速入门 965.7.2 简单使用Eclipse插件 107习题 115第6章Hadoop I/O操作 1166.1 HDFS数据完整性 1166.1.1 校验和 1166.1.2 运行后台进程来检测数据块 1176.2 基于文件的数据结构 1186.2.1 SequenceFile的存储 1186.2.2 MapFile的存储 1226.2.3 SequenceFile转换为MapFile 1246.3 压缩 1256.3.1 认识压缩 1266.3.2 Codec 1266.3.3 本地库 1286.3.4 如何选择压缩格式 1296.4 序列化 1306.4.1 认识序列化 1306.4.2 Writable接口 1316.4.3 WritableComparable接口 1326.4.4 Hadoop Writable基本类型 1336.4.5 自定义Writable类型 138习题 139第7章海量数据库技术HBase 1407.1 初识HBase 1407.2 HBase表视图 1417.2.1 概念视图 1417.2.2 物理视图 1427.3 HBase物理存储模型 1437.4 安装HBase 1497.4.1 HBase单节点安装 1497.4.2 HBase伪分布式安装 1517.4.3 HBase完全分布式安装 1527.5 HBase Shell 1547.5.1 HBase Shell的命令 1547.5.2 general操作 1567.5.3 DDL操作 1577.5.4 DML操作 159习题 161第8章ZooKeeper技术 1628.1 分布式协调技术及其实现者 1628.1.1 分布式协调技术 1628.1.2 实现者 1638.2 ZooKeeper基本架构 1638.2.1 角色 1638.2.2 选举机制 1648.3 ZooKeeper数据模型 1648.3.1 Znode 1648.3.2 ZooKeeper中的时间 1658.3.3 ZooKeeper节点属性 1668.3.4 watch触发器 1668.4 ZooKeeper集群安装 1688.5 ZooKeeper的主要Shell操作 1698.6 典型运用场景 1718.6.1 数据发布与订阅 1718.6.2 统一命名服务 1728.6.3 分布通知/协调 172习题 173第9章分布式数据仓库技术Hive 1749.1 Hive出现的原因 1749.2 Hive服务的组成 1749.3 Hive的安装 1769.3.1 Hive基本安装 1769.3.2 MySQL的安装 1769.3.3 Hive的配置 1779.4 Hive Shell 1809.5 HQL 1819.5.1 认识HQL 1819.5.2 Hive管理数据方式 1829.5.3 Hive表的DDL操作 1839.5.4 Hive表的DML操作 192习题 196第 10章分布式数据分析工具Pig 19710.1 Pig的安装和配置 19710.2 Pig的基本概念 19810.3 Pig的保留关键字 19910.4 使用Pig 20110.4.1 Pig命令行选项 20110.4.2 Pig的运行模式 20210.4.3 Pig相关Shell命令 20210.4.4 Pig程序运行方式 20610.4.5 Pig的输入与输出 20810.5 Pig模式(Schemas) 21010.6 Pig相关函数 217习题 221第 11章Hadoop与RDBMS数据迁移工具Sqoop 22211.1 Sqoop简介及基本安装 22211.2 Sqoop的配置 22311.3 Sqoop的相关功能 22411.3.1 Sqoop的工具命令 22411.3.2 Sqoop与MySQL 22511.3.3 sqoop-import操作 22611.3.4 sqoop-import-all-tables操作 23111.3.5 sqoop-export操作 23211.3.6 sqoop-list-databases和sqoop-list-tables操作 23411.4 Hive、Pig和Sqoop三者之间的关系 235习题 236第 12章大数据实时处理技术 23712.1 Storm大数据实时处理技术 23712.1.1 Apache Storm的组成结构 23712.1.2 数据流与分组 23812.1.3 Storm-Yarn产生的背景 24012.1.4 Storm-Yarn的功能 24012.2 Spark大数据实时处理技术 24112.2.1 Apache Spark架构 24112.2.2 Apache Spark的扩展功能 24312.3 Storm与Spark的异同 245习题 246附录A使用Eclipse提交Hadoop任务时相关错误的修复 247附录B常用Pig内置函数 249
展开全部
配送说明
...
相似商品
为你推荐
开播时间:09月02日 10:30