数据同步工具 – DataX (阿里开源)

1、DataX 基本介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,致力于实现包括:关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。... ... [查看更多]

1、DataX 基本介绍 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,致力于实现包括:关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase、ODPS、FTP等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。... ... [查看更多]

Views: 57

大数据高性能实时分析数据存储系统 – Druid

一、课前准备 安装好Hadoop集群 安装好kafka集群 二、课堂主题 学习Druid的架构、安装、使用 三、课堂目标 了解druid 了解druid的应用场景 了解druid架构原理 了解druid数据结构 安装部署druid 使用druid 四、知识要点 1. druid是什么 Druid是一个专为大型数据集上的高性能切片和OLAP分析而设计的数据存储系统。 它使用了分布式的、列式存储,支持实时分析 相比传统的OLAP系统,在处理PB级别数据、毫秒级查询、实时处理... ... [查看更多]

一、课前准备 安装好Hadoop集群 安装好kafka集群 二、课堂主题 学习Druid的架构、安装、使用 三、课堂目标 了解druid 了解druid的应用场景 了解druid架构原理 了解druid数据结构 安装部署druid 使用druid 四、知识要点 1. druid是什么 Druid是一个专为大型数据集上的高性能切片和OLAP分析而设计的数据存储系统。 它使用了分布式的、列式存储,支持实时分析 相比传统的OLAP系统,在处理PB级别数据、毫秒级查询、实时处理... ... [查看更多]

Views: 101

分布式存储引擎 – KYLIN

Apache Kylin 是一个开源的分布式存储引擎,最初由 eBay 开发贡献至开源 社区。它提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力以支持大规 模数据,能够处理 TB 乃至 PB 级别的分析任务,能够在亚秒级查询巨大的 Hive 表,并支持高并发。 1.1、为什么要使用kylin 自从 10 年前 Hadoop 诞生以来,大数据的存储和批处理问题均得到了妥善解 决,而如何高速地分析数据也就成为了下一个挑战。于是各式各样的“SQL o... ... [查看更多]

Apache Kylin 是一个开源的分布式存储引擎,最初由 eBay 开发贡献至开源 社区。它提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力以支持大规 模数据,能够处理 TB 乃至 PB 级别的分析任务,能够在亚秒级查询巨大的 Hive 表,并支持高并发。 1.1、为什么要使用kylin 自从 10 年前 Hadoop 诞生以来,大数据的存储和批处理问题均得到了妥善解 决,而如何高速地分析数据也就成为了下一个挑战。于是各式各样的“SQL o... ... [查看更多]

Views: 65

Hadoop集群可视化管理- Hue

一、课前准备 准备好大数据集群,启动所有的服务,例如hadoop,hbase,impala,hiveserver2,mysql等各种服务 二、课堂主题 本堂课主要介绍hue这个图形化的界面工具,以及与其他工具之间的整合使用 三、课堂目标 实现hue与其他框架的整合使用 四、知识要点 1、hue的基本介绍 HUE=Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera... ... [查看更多]

一、课前准备 准备好大数据集群,启动所有的服务,例如hadoop,hbase,impala,hiveserver2,mysql等各种服务 二、课堂主题 本堂课主要介绍hue这个图形化的界面工具,以及与其他工具之间的整合使用 三、课堂目标 实现hue与其他框架的整合使用 四、知识要点 1、hue的基本介绍 HUE=Hadoop User Experience Hue是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera... ... [查看更多]

Views: 84

高速Hive查询引擎 – Impala

一、课前准备 安装好hive以及hadoop运行环境,并正常启动hadoop以及hive的 二、课堂主题 实现impala集群环境正常安装,并掌握impala的基本语法 三、课堂目标 熟练使用impala的语法 四、知识要点 离线任务处理流程概述 由于大部分的软件框架,CDH都提供了压缩包的安装方式,但是由于impala有部分代码使用C++编写,所以impala在安装包的选择上面,cloudera公司没有提供tar包的安装方式,只提供了rpm的安装方式,我们可以通过下载rpm包来进... ... [查看更多]

一、课前准备 安装好hive以及hadoop运行环境,并正常启动hadoop以及hive的 二、课堂主题 实现impala集群环境正常安装,并掌握impala的基本语法 三、课堂目标 熟练使用impala的语法 四、知识要点 离线任务处理流程概述 由于大部分的软件框架,CDH都提供了压缩包的安装方式,但是由于impala有部分代码使用C++编写,所以impala在安装包的选择上面,cloudera公司没有提供tar包的安装方式,只提供了rpm的安装方式,我们可以通过下载rpm包来进... ... [查看更多]

Views: 58