大数据日志分析项目需求

目标:电商网站+电商网站后台管理系统+大数据分析+数据可视化思路:

按照数据的采集,数据的存储,数据分析处理,数据可视化

逻辑图:

项目要求   

  • 题材不限,但需先经过老师认可
  • 各组组长记录组员项目进度,每周提交给老师
  • 数据源至少来自两处,可以是日志、关系型数据库、以及爬虫的数据
  • 日志允许通过代码生成(或者ab压测工具来生成)
  • 前后台管理页面不能和老师的一样   
  • 讲述清楚nginx、tomcat、flume、sqoop、hadoop各自作用   
  • 重点突出数据分析部分,mapreduce、hive、storm至少使用2种,完成6个不同的分析,hbase、kafka选择使用
  • 日志收集使用flume, 数据导入导出使用sqoop
  • 数据可视化可以使用echarts、或其他类型前端框架、另外superset,datav等也允许使用
  • 能够熟练使用各类脚本及命令
  • 最后一周(17周结束前)完成所有项目演讲,每人1-2分钟时间
  • 大数据采集、存储、分析处理、可视化的过程应该是连续的
  • 允许使用任务调度框架编排执行定时任务
  • 展示的时候所有模块都需要完全部署到虚拟机,不允许本地运行项目

七、开源的爬虫项目   

网站:http://www.geccocrawler.com/tag/sysc/    GitHub:https://github.com/xtuhcy/gecco

Views: 115

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注