目标:电商网站+电商网站后台管理系统+大数据分析+数据可视化思路:
按照数据的采集,数据的存储,数据分析处理,数据可视化
逻辑图:
项目要求
- 题材不限,但需先经过老师认可
- 各组组长记录组员项目进度,每周提交给老师
- 数据源至少来自两处,可以是日志、关系型数据库、以及爬虫的数据
- 日志允许通过代码生成(或者ab压测工具来生成)
- 前后台管理页面不能和老师的一样
- 讲述清楚nginx、tomcat、flume、sqoop、hadoop各自作用
- 重点突出数据分析部分,mapreduce、hive、storm至少使用2种,完成6个不同的分析,hbase、kafka选择使用
- 日志收集使用flume, 数据导入导出使用sqoop
- 数据可视化可以使用echarts、或其他类型前端框架、另外superset,datav等也允许使用
- 能够熟练使用各类脚本及命令
- 最后一周(17周结束前)完成所有项目演讲,每人1-2分钟时间
- 大数据采集、存储、分析处理、可视化的过程应该是连续的
- 允许使用任务调度框架编排执行定时任务
- 展示的时候所有模块都需要完全部署到虚拟机,不允许本地运行项目
七、开源的爬虫项目
网站:http://www.geccocrawler.com/tag/sysc/ GitHub:https://github.com/xtuhcy/gecco
Views: 115