成功加入购物车
贾传青 著 / 清华大学出版社 / 2015-03 / 平装
售价 ¥ 145.00
品相 八五品
优惠 满包邮
延迟发货说明
上书时间2022-01-03
卖家超过10天未登录
开源大数据分析引擎Impala实战
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。Impala1.0版比原来基于MapReduce的HiveSQL查询速度提升3~90倍,因此,Impala有可能完全取代Hive。作者基于自己在本职工作中应用Impala的实践和心得编写了《开源大数据分析引擎Impala实战》。
《开源大数据分析引擎Impala实战》共分10章,全面介绍开源大数据分析引擎Impala的技术背景、安装与配置、架构、操作方法、性能优化,以及最富技术含量的应用设计原则和应用案例。《开源大数据分析引擎Impala实战》紧扣目前计算技术发展热点,适合所有大数据分析人员、大数据开发人员和大数据管理人员参考使用。
第1章Impala概述、安装与配置1.1Impala概述1.2ClouderaManager安装准备1.3CM及CDH安装1.4Hive安装1.5Impala安装第2章Impala入门示例2.1数据加载2.2数据查询2.3分区表2.4外部分区表2.5笛卡尔连接2.6更新元数据第3章Impala概念及架构3.1Impala服务器组件3.1.1ImpalaDaemon3.1.2ImpalaStatestore3.1.3ImpalaCatalog3.2Impala应用编程3.2.1ImpalaSQL方言3.2.2Impala编程接口概述3.3与Hadoop生态系统集成3.3.1与Hive集成3.3.2与HDFS集成3.3.3使用HBase第4章SQL语句4.1注释4.2数据类型4.2.1BIGINT4.2.2BOOLEAN4.2.3DOUBLE4.2.4FLOAT4.2.5INT4.2.6REAL4.2.7SMALLINT4.2.8STRING4.2.9TIMESTAMP4.2.10TINYINT4.3常量4.3.1数值常量4.3.2字符串常量4.3.3布尔常量4.3.4时间戳常量4.3.5NULL4.4SQL操作符4.4.1BETWEEN操作符4.4.2比较操作符4.4.3IN操作符4.4.4ISNULL操作符4.4.5LIKE操作符4.4.6REGEXP操作符4.5模式对象和对象名称4.5.1别名4.5.2标示符4.5.3数据库4.5.4表4.5.5视图4.5.6函数4.6SQL语句4.6.1ALTERTABLE4.6.2ALTERVIEW4.6.3COMPUTESTATS4.6.4CREATEDATABASE4.6.5CREATEFUNCTION4.6.6CREATETABLE4.6.7CREATEVIEW4.6.8DESCRIBE4.6.9DROPDATABASE4.6.10DROPFUNCTION4.6.11DROPTABLE4.6.12DROPVIEW4.6.13EXPLAIN4.6.14INSERT4.6.15INVALIDATEMETADATA4.6.16LOADDATA4.6.17REFRESH4.6.18SELECT4.6.19SHOW4.6.20USE4.7内嵌函数4.7.1数学函数4.7.2类型转换函数4.7.3时间和日期函数4.7.4条件函数4.7.5字符串函数4.7.6特殊函数4.8聚集函数4.8.1AVG4.8.2COUNT4.8.3GROUP_CONCAT4.8.4MAX4.8.5MIN4.8.6NDV4.8.7SUM4.9用户自定义函数UDF4.9.1UDF概念4.9.2安装UDF开发包4.9.3编写UDF4.9.4编写UDAF4.9.5编译和部署UDF4.9.6UDF性能4.9.7创建和使用UDF示例4.9.8UDF安全4.9.9ImpalaUDF的限制4.10ImpalaSQL&HiveQL4.11将SQL移植到Impala上第5章Impalashell5.1命令行选项5.2连接到Impalad5.3运行命令5.4命令参考5.5查询参数设置第6章Impala管理6.1准入控制和查询队列6.1.1准入控制概述6.1.2准入控制和YARN6.1.3并发查询限制6.1.4准入控制和Impala客户端协同工作6.1.5配置准入控制6.1.6使用准入控制指导原则6.2使用YARN资源管理(CDH5)6.2.1Llama进程6.2.2检查计算的资源和实际使用的资源6.2.3资源限制如何生效6.2.4启用Impala资源管理6.2.5资源管理相关impala-shell参数6.2.6Impala资源管理的限制6.3为进程,查询,会话设定超时限制6.4通过代理实现Impala高可用性6.5管理磁盘空间第7章Impala存储7.1文件格式选择7.2Text7.2.1查询性能7.2.2创建文本表7.2.3数据文件7.2.4加载数据7.2.5LZO压缩7.3Parquet7.3.1创建Parquet表7.3.2加载数据7.3.3查询性能7.3.4Snappy/Gzip压缩7.3.5与其他组件交换Parquet数据文件7.3.6Parquet数据文件组织方式7.4Avro7.4.1创建Avro表7.4.2使用Hive创建的Avro表7.4.3通过JSON指定Avro模式7.4.4启用压缩7.4.5模式进化7.5RCFile7.5.1创建RCFile表和加载数据7.5.2启用压缩7.6SequenceFile7.6.1创建和加载数据7.6.2启用压缩7.7HBase7.7.1支持的Hbase列类型7.7.2性能问题7.7.3适用场景7.7.4数据加载7.7.5启用压缩7.7.6限制7.7.7示例第8章Impala分区8.1分区技术适用场合8.2分区表相关SQL语句8.3分区修剪8.4分区键列8.5使用不同的文件格式第9章Impala性能优化9.1最佳实践9.2连接查询优化9.3使用统计信息9.4基准测试9.5控制资源使用9.6性能测试9.7使用EXPLAIN信息9.8使用PROFILE信息第10章Impala设计原则与应用案例10.1设计原则10.2应用案例
展开全部
配送说明
...
相似商品
为你推荐
开播时间:09月02日 10:30