HBase(一)介绍和安装

HBase介绍 HBase基于Google的BigTable论文,是建立的HDFS之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统。 在需要实时读、写随机访问、超大规模数据集时,可以使用HBase。 HBase的特点 极易扩展,海量存储 底层依赖HDFS,当磁盘空间不足的时候,只需要动态增加datanode节点就可以了 可以通过增加服务器来对集群的存储进行扩容 列式存储 HBase表的数据是基于列族进行存储的,列族是在列的方向上的划分。 高并发 支持高并发的读... ... [查看更多]

Views: 25

电商日志分析项目 – 03 日志的分析(MapReduce)

MapReduce工程代码 创建maven工程 在项目根目录下创建input文件夹,创建一个文本文件access.log用来模拟nginx日志 引入maven依赖 添加log4j.properties文件在资源目录下即resources,文件内容如下 编写MR程序之Mapper:LogMapper.java 编写MR程序之Mapper:LogReducer.java 编写MR程序之Job:LogJob.java 本地运行代码,测试下结果正确与否 本地运... ... [查看更多]

Views: 78

Superset的基本介绍与安装

superset是由Airbnb(知名在线短租赁公司)开源的数据分析与可视化平台(曾用名Caravel、Panoramix),该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询对结果集进行保存可视化等。 1、superset基本介绍 我们已经了解到了superset是一款数据展示的工具,接下来 一起来了解一下superset的基本介绍。 核心功能: 1.快速创建数据可视化互动仪表盘 2.丰富的可视化图... ... [查看更多]

Views: 61

Hive的概念

1 Hive的概念 Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支持,说白了hive可以理解为一个将SQL转换为MapReduce任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端 2 Hive与数据库的区别 Hive 具有 SQL 数据库的外表,但应用场景完全不同。 Hive 只适合用来做海... ... [查看更多]

Views: 30