《基于Hadoop的大数据平台构建》以构建一个大数据存储与处理平台为例,以Apache Hadoop软件为基础,采用单节点平台到高可用平台再到平台相关工具的循序渐进的方式,使读者逐步了解大数据平台,并掌握基于Apache Hadoop的大数据平台的搭建和使用。全书的内容如下:
项目1以单节点模式的Hadoop整合平台的搭建为例,介绍大数据以及Hadoop平台。单节点模式是Hadoop平台为简单的一种部署模式,多用于测试和开发环境,通过该部署模式能够更容易地了解Hadoop平台。
项目2以高可用模式的Hadoop整合平台的搭建为例,展示了更为完整的Hadoop平台的面貌。高可用模式是用于实际运行服务的Hadoop平台的完整部署模式,通过该部署模式能够进一步深入了解Hadoop平台的功能与特性。
项目3通过多个Hadoop平台的操作示例,介绍了HDFS文件系统、MapReduce框架、HBase数据库的常见使用和维护方法。
项目4介绍了基于Linux操作系统的MySQL数据库平台的搭建,包括单节点和集群两种部署模式。MySQL数据库作为为常用的关系型数据库之一,被Hadoop生态圈中的很多组件所使用,是完整的基于Hadoop的大数据平台中不可或缺的一部分。
项目5介绍了Hadoop生态圈中的数据仓库平台Hive的搭建,并以操作示例展示了其基本使用方法。数据仓库是用于支持大数据决策分析的重要工具,而Hive所提供的类SQL查询功能更是让传统的关系型数据库的使用者也能轻松地使用Hadoop平台来进行数据的分析和处理。
项目6介绍了Hadoop生态圈中的ETL工具Sqoop的安装,并通过示例展示了如何在关系型数据库和Hadoop平台之间转换数据。ETL工具是不同数据存储平台之间进行数据转换的重要手段,而由于Hadoop平台不善于处理随机数据存储的特性,使其必然需要从其他存储业务数据的数据库中导人数据,这就使得Sqoop工具显得尤为重要。