电商日志分析项目 – 05 改用Spark进行日志分析

什么是 Spark Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在某些工作负载方面表现得更加优越。它提供了Java. Scala. Python和R的高级API,以及一个支持通用的执行图计算的优化引擎。它还支持一组丰富的高级工具,包括使用SQL进行结构化数据处理的Spark SQL. 用于机器学习的MLlib. 用于图处理的GraphX,以及用于实时流处理的Spark Streaming。 Spark的主要特点: ... ... [查看更多]

Views: 373

电商日志分析项目 – 03 日志的分析(MapReduce)

MapReduce工程代码 创建maven工程 在项目根目录下创建input文件夹,创建一个文本文件access.log用来模拟nginx日志 引入maven依赖 添加log4j.properties文件在资源目录下即resources,文件内容如下 编写MR程序之Mapper:LogMapper.java 编写MR程序之Mapper:LogReducer.java 编写MR程序之Job:LogJob.java 本地运行代码,测试下结果正确与否 本地运... ... [查看更多]

Views: 77

电商日志分析项目 – 02 日志的生成和采集(Flume)

Hadoop安装与配置 Hadoop3.1.4的单机安装参考 Flume的安装与配置 Flume的安装与配置参考 Apache httpd 安装 安装httpd的原因主要是使用它提供的ab压测工具. 安装httpd 配置httpd,为了避免和ngixn端口冲突修改端口号为81,配置如下: 修改内容如下: 启动服务 查看启动状态 注意: 其实使用httpd只是为了使用ab工具,无需启动httpd服务 AB压测生成日志 访问http://hadoop100/... ... [查看更多]

Views: 128

电商日志分析项目 – 01 环境搭建和项目部署

一、CentOS7下MySQL-5.7使用yum方式安装: Centos7的MySQL安装 卸载mariaDb mysql被oracle收购后为了防止mysql有可能变成闭源,因此mysql创始人maria就开源做了一个mariaDb, centos7是自带使用了这个数据库的.因此安装mysql之前,应当首先卸载mariadb数据库: 同理如果是已经安装过其他版本的MySQL,安装新的版本之前也需要按照如上方法进行卸载。 安装MySQL 下载mysql的YUM源: https:/... ... [查看更多]

Views: 137