大数据岗位需求情况分析（二）结果导出和可视化

Sqoop导出Hive表到MySQL中

前提

DFS和Yarn需保持运行状态
MySQL服务处于运行状态

创建对应的MySQL表

根据Hive中用于存放分析结果的四个表，也同样在MySQL中创建具有相同表结构的四个表

使用Sqoop命令导出

语法

sqoop export \
--connect "jdbc:mysql://hadoop100:3306/job?useSSL=false&characterEncoding=utf-8"  \
--username root --password niit1234 \
--table <mysql_table_name> \
--export-dir /user/hive/warehouse/job.db/<hive_table_name>/data_date=<partition_value> \
--input-fields-terminated-by "\001";

第一个表

建表

mysql> create table job_count(process_date date,total_job_count int);

导出

sqoop export \
--connect "jdbc:mysql://hadoop100:3306/job?useSSL=false&characterEncoding=utf-8"  \
--username root \
--password niit1234 \
--table job_count \
--export-dir /user/hive/warehouse/job.db/job_count/data_date=2021-02-28 \
--input-fields-terminated-by "\001"

第二个表

建表

mysql> create table job_city_count(process_date date,city varchar(20), total_job_count int);

导出

sqoop export \
--connect "jdbc:mysql://hadoop100:3306/job?useSSL=false&characterEncoding=utf-8"  \
--username root \
--password niit1234 \
--table job_city_count \
--export-dir /user/hive/warehouse/job.db/job_city_count/data_date=2021-02-28 \
--input-fields-terminated-by "\001"

第三个表

建表

 create table job_city_salary(process_date date,city varchar(20), job_name varchar(50), salary_per_month int);

导出

sqoop export \
--connect "jdbc:mysql://hadoop100:3306/job?useSSL=false&characterEncoding=utf-8"  \
--username root \
--password niit1234 \
--table job_city_salary \
--export-dir "/user/hive/warehouse/job.db/job_city_salary/data_date=2021-02-28" \
--input-fields-terminated-by "\001"

第四个表

建表

create table job_tag(process_date date,job_tag varchar(50), tag_count int);

导出

sqoop export \
--connect "jdbc:mysql://hadoop100:3306/job?useSSL=false&characterEncoding=utf-8"  \
--username root \
--password niit1234 \
--table job_tag \
--export-dir "/user/hive/warehouse/job.db/job_tag/data_date=2021-02-28" \
--input-fields-terminated-by "\001"

数据可视化展示

superset是由Airbnb（知名在线短租赁公司）开源的数据分析与可视化平台（曾用名Caravel、Panoramix），该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化（导出）、用户/角色权限控制，还集成了一个SQL编辑器，可以进行SQL编辑查询对结果集进行保存可视化等。

SUPERSET的基本介绍与安装参考这篇文章

启动superset后，打开浏览器访问http://hadoop100:8787

输入用户名（admin）和密码（admin）登陆即可使用superset进行数据可视化展示。

创建数据库连接

file
具体配置为
file

创建数据集

file

创建图表

根据数据集创建需要展示的图标（Chart）

表1

爬取的总岗位数
file

表2

不同城市提供的大数据相关岗位数量比较

file

表3

不同城市提供的大数据相关岗位的薪资倒序排列 - 取TopN
file

表4

岗位标签做成词云统计

file

创建仪表盘

仪表盘可以将需要展示的所有图标布局到一起。

file
布局后

file

将仪表盘设置为实时更新

如果是需要实时更新数据的表，可以设置同步间隔时间

file

一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Sqoop导出Hive表到MySQL中

前提

创建对应的MySQL表

使用Sqoop命令导出

第一个表

第二个表

第三个表

第四个表

数据可视化展示

创建数据库连接

创建数据集

创建图表

表1

表2

表3

表4

创建仪表盘

将仪表盘设置为实时更新

其他关联文章: