Superset的基本介绍与安装

superset是由Airbnb(知名在线短租赁公司)开源的数据分析与可视化平台(曾用名Caravel、Panoramix),该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询对结果集进行保存可视化等。 1、superset基本介绍 我们已经了解到了superset是一款数据展示的工具,接下来 一起来了解一下superset的基本介绍。 核心功能: 1.快速创建数据可视化互动仪表盘 2.丰富的可视化图... ... [查看更多]

Views: 60

Hive的概念

1 Hive的概念 Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支持,说白了hive可以理解为一个将SQL转换为MapReduce任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端 2 Hive与数据库的区别 Hive 具有 SQL 数据库的外表,但应用场景完全不同。 Hive 只适合用来做海... ... [查看更多]

Views: 30

数据仓库概念

1.1 数据仓库的基本概念 数据仓库的英文名称为Data Warehouse,可简写为DW或DWH。 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持的目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 1.2 数据仓库的主要特征 数据仓库是面向主题的(Subject-Or... ... [查看更多]

Views: 23

Hadoop Yarn (3) 应用运行原理

3. YARN应用运行原理(重点) 3.1 YARN应用提交过程 Application在Yarn中的执行过程,整个执行过程可以总结为三步: 应用程序提交 启动应用的ApplicationMaster实例 ApplicationMaster 实例管理应用程序的执行 具体提交过程为: 客户端程序向 ResourceManager 提交应用,并请求一个 ApplicationMaster 实例; ResourceManager 找到一个可以运行一个 Container ... ... [查看更多]

Views: 31

电商日志分析项目 – 02 日志的生成和采集(Flume)

Hadoop安装与配置 Hadoop3.1.4的单机安装参考 Flume的安装与配置 Flume的安装与配置参考 Apache httpd 安装 安装httpd的原因主要是使用它提供的ab压测工具. 安装httpd 配置httpd,为了避免和ngixn端口冲突修改端口号为81,配置如下: 修改内容如下: 启动服务 查看启动状态 注意: 其实使用httpd只是为了使用ab工具,无需启动httpd服务 AB压测生成日志 访问http://hadoop100/... ... [查看更多]

Views: 128