Hive的概念

1 Hive的概念 Hive是基于Hadoop的一个数据仓库工具 可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储支持,说白了hive可以理解为一个将SQL转换为MapReduce任务的工具,甚至更进一步可以说hive就是一个MapReduce的客户端 2 Hive与数据库的区别 Hive 具有 SQL 数据库的外表,但应用场景完全不同。 Hive 只适合用来做海... ... [查看更多]

Views: 30

数据仓库概念

1.1 数据仓库的基本概念 数据仓库的英文名称为Data Warehouse,可简写为DW或DWH。 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持的目的而创建。 数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。 1.2 数据仓库的主要特征 数据仓库是面向主题的(Subject-Or... ... [查看更多]

Views: 23

Hadoop Yarn (3) 应用运行原理

3. YARN应用运行原理(重点) 3.1 YARN应用提交过程 Application在Yarn中的执行过程,整个执行过程可以总结为三步: 应用程序提交 启动应用的ApplicationMaster实例 ApplicationMaster 实例管理应用程序的执行 具体提交过程为: 客户端程序向 ResourceManager 提交应用,并请求一个 ApplicationMaster 实例; ResourceManager 找到一个可以运行一个 Container ... ... [查看更多]

Views: 31

Java带Jar包编译方式

java命令行编译带jar包 项目的结构如下 简单的不带包名的java源文件编译 编译 运行 简单的带包名的java源文件编译 编译 运行 对带一个jar包的java源文件编译 编译 运行 注意 其中 -cp 等同于 –classpath 路径分隔符要注意windows系统要把冒号改成分号 引入多个jar包的java源文件编译 编译 运行 另外:对于多个jar分散在多个文件夹中时, 编译使用: 运行时使用: ... ... [查看更多]

Views: 8

电商日志分析项目 – 02 日志的生成和采集(Flume)

Hadoop安装与配置 Hadoop3.1.4的单机安装参考 Flume的安装与配置 Flume的安装与配置参考 Apache httpd 安装 安装httpd的原因主要是使用它提供的ab压测工具. 安装httpd 配置httpd,为了避免和ngixn端口冲突修改端口号为81,配置如下: 修改内容如下: 启动服务 查看启动状态 注意: 其实使用httpd只是为了使用ab工具,无需启动httpd服务 AB压测生成日志 访问http://hadoop100/... ... [查看更多]

Views: 128