Superset的基本介绍与安装

superset是由Airbnb(知名在线短租赁公司)开源的数据分析与可视化平台(曾用名Caravel、Panoramix),该工具主要特点是可自助分析、自定义仪表盘、分析结果可视化(导出)、用户/角色权限控制,还集成了一个SQL编辑器,可以进行SQL编辑查询对结果集进行保存可视化等。

1、superset基本介绍

我们已经了解到了superset是一款数据展示的工具,接下来 一起来了解一下superset的基本介绍。

核心功能:

1.快速创建数据可视化互动仪表盘

2.丰富的可视化图表模板,灵活可扩展

3.细粒度高可扩展性的安全访问模型,支持主要的认证供应商(数据库、OpenID、LDAP、OAuth 等)

4.简洁的语义层,可以控制数据资源在 UI 的展现方式

5.与 Druid(其实它貌似就是为了druid而生的)深度集成,可以快速解析大规模数据集

6.快速的通过配置装载仪表盘等

2、superset的安装

前面我们已经了解到superset的作用,接下来我们来进行superset的安装

第一步:linux验证python的环境

superset的安装运行需要依赖于python3的环境,我们这里安装使用的是centos7的linux操作系统,但是centos7的操作系统自带的python版本是2.x的版本

使用python命令来进行验证python版本

第二步:centos7.x安装python3.6版本

前面已经验证了centos7.x当中python的环境是2.x的版本,那么我们可以来给centos7.x安装python3.6的版本。

如果没有C编译环境则需要先安装, 执行:

添加python环境变量

检查python是否安装成功

修改系统Python的环境变量

因为yum是依赖python的,所以这里我们修改了默认的python,就要修改yum,让其运行指向旧的版本

修改第一个文件

修改第二个文件

至此centos7上面的python3.x的环境已经安装成功

第三步:安装容器和密码验证工具

使用yum源在centos7上面安装容器以及密码验证工具

安装必要的依赖

安装pip3

查看已安装的第三方库

查看具体某第三方库的安装位置

为了避免继续安装第三方库的时候显示没有权限,设置本地第三方库安装目录的所有者为当前用户

继续升级和安装第三方库

python3-pip包含在python3-setuptools里面

网络原因下载失败可以多重试几次,如果还不行则考虑更换DNS、yum源或epel源。

第四步:安装Miniconda

miniconda是一个集成化的工具,可以给我们提供各种版本的python运行环境,我们这里通过miniconda来进行安装superset

下载miniconda安装的脚本,然后通过脚本来进行安装

安装过程会自动修改家目录下的bashrc文件,如下:

但是要使之生效还需要手动输入命令:

miniconda安装成功之后,在我们的shell前面会有一个base这样的提示,表示我们目前出在miniconda的基础环境当中,我们可以通过以下命令来取消激活base环境

第五步:创建python3.8的虚拟环境

前面我们已经安装好了miniconda的基础环境,接下来我们来通过conda创建Python3.8的虚拟环境

1、配置conda国内镜像

2、创建Python3.8的虚拟环境

3、激活superset环境

4、安装superset依赖

5、安装或者更新setuptools和pip

6、安装superset

7、连接mysql的设置安装

异常处理

注意:如果在执行命令 pip install mysqlclient -i https://pypi.tuna.tsinghua.edu.cn/simple/ 产生错误,错误如下的话

错误如下:
OSError: mysql_config not found

解决:
安装依赖:

如果安装mysql-devel过程中提示缺少mariadb-devel.x86_64或者其他依赖,使用yum install安装即可。

但如果你的虚拟机的mariadb相关包已经被卸载并且替换成了mysql,也可以利用mysql的源来安装mysql-devel,需要注意的是安装的包名很可能不再是mysql-devel而要改成mysql-community-devel.下面是使用mysql源安装mysql-devel的例子

报错:

GPG 密钥已安装,但是不适用于此软件包。请检查源的公钥 URL 是否配置正确。

解决方法:

在mysql官网搜关键字GPG,找到了解决方案,大意是如果使用的4.1以上版本的rpm的话,除了import mysql的公钥到个人用户的配置中,还需要import mysql的公钥到RPM的配置中。

再次执行:

8、初始化数据库

如果出现错误如下

解决:

问题2:

这个错误好像是新版本的markupsafe代码变动问题产生的,需要退回到2.0.1

解决办法:

问题3:

出现这个问题的原因是虚拟环境中的python版本低了,因为python3.7缺少TypedDict 这个类型。

解决办法:
删除原环境, 重新创建一个python3.8的环境就行。

以上问题都修改好后, 最后重启初始化数据库:

8、创建管理员用户

注意: 如果 flask fab create-admin 不可用使用, 可以换成如下命令创建用户:

第六步:启动superset

以上步骤完成之后,准备启动superset

1、初始化superset

2、安装gunicorn

2、启动superset

或者使用以下命令启动

第七步:superset的停止与退出conda环境

如果需要停止superset可以使用以下命令来停止superset

1、停止superset

2、退出superset环境

第八步:浏览器访问superset

使用浏览器访问地址

http://hadoop100:8288/

输入用户名:admin
密码:admin

第九步:开发superset的启动与停止脚本

然后就可以使用命令 superset-service.sh (start|status|stop)来启动superset、查看superset状态、关闭superset了。

启动superset后,打开浏览器访问http://hadoop100:8787

Superset的基础使用

创建数据库连接

file
具体配置为
file

创建数据集

file

创建图表

根据数据集创建需要展示的图标(Chart)

表1

爬取的总岗位数
file

表2

不同城市提供的大数据相关岗位数量比较

file

表3

不同城市提供的大数据相关岗位的薪资倒序排列 – 取TopN
file

表4

岗位标签做成词云统计

file

创建仪表盘

仪表盘可以将需要展示的所有图标布局到一起。

file
布局后

file

将仪表盘设置为实时更新

如果是需要实时更新数据的表,可以设置同步间隔时间

file

输入用户名(admin)和密码(admin)登陆即可使用superset进行数据可视化展示。

加载官方示例数据集

由于原因是example数据是存放在github的,可能导致无法直接下载或者下载超时,可提前到官方手动下载文件到本地:

第三步,在网址栏输入http://(自己电脑的IP):【端口号】,就可以看到你当时的目录,http服务搭建完成

查找superset安装位置

保存好

再回到最开始尝试:

最后重新初始化superset

登录superset网站,查看示例数据集和示例图标:

Views: 60