高速Hive查询引擎 – Impala

一、课前准备 安装好hive以及hadoop运行环境,并正常启动hadoop以及hive的 二、课堂主题 实现impala集群环境正常安装,并掌握impala的基本语法 三、课堂目标 熟练使用impala的语法 四、知识要点 离线任务处理流程概述 由于大部分的软件框架,CDH都提供了压缩包的安装方式,但是由于impala有部分代码使用C++编写,所以impala在安装包的选择上面,cloudera公司没有提供tar包的安装方式,只提供了rpm的安装方式,我们可以通过下载rpm包来进... ... [查看更多]

Views: 58

Flume 进阶

一、flume事务 put事务流程 1、doPut 将批量数据先写入临时缓冲区putList 2、doCommit 检查Channel内存队列是否足够, (1)达到一定时间没有数据写入到putList (2)达到了putListCapcity容量 3、doRollback Channel内存队列空间不足,回滚数据到putList,会被channel打回来 take事务流程: 1、doTake 将数据取到临时缓冲区takeList,并将数据发送到HDFS 2、doCommit 如果数... ... [查看更多]

Views: 140

Presto分布式SQL查询引擎

一、课前准备 jdk版本要求:Java 8 Update 151 or higher (8u151+), 64-bit 安装好hadoop集群 安装好hive 二、课堂主题 介绍presto presto架构 prsto安装部署 presto使用 三、课堂目标 理解presto 独立完成presto安装部署 使用presto 四、知识要点 1. Presto是什么? Hadoop提供了大数据存储与计算的一整套解决方案;但是它采用的是MapReduce计算框架,只适合离... ... [查看更多]

Views: 11