大数据岗位需求情况分析(一)数据爬取和分析

百度搜索官网 使用八爪鱼网络数据采集器爬取数据 使用手机号注册账号 利用现有模板创建采集任务(免费用户不能设置定时采集以及云采集) 这里选择的是猎聘招聘网 设置查询关键词,这里使用”大数据“作为关键词 关键词可以写多行,并设置翻页次数 启动本地采集任务 如果IP被禁,过一段时间再次开启,多次执行就会累计足够数据 查看本地采集的数据 在远程数据库创建数据库,选取感兴趣的列建表 使用八爪鱼自带功能导出到远程MySQL数据库 (如果需要特殊处理可以导出CSV,处理后再导入数据库... ... [查看更多]

Views: 106

09 – SQOOP安装配置

1、下载和安装 下载 http://archive.apache.org/dist/sqoop/1.4.7/ 上传sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz到/tools目录下 解压安装, 改名 配置环境变量 2、配置 配置sqoop的环境和配置 ​ 把Sqoop可能使用的环境变量都配置上 ​ 修改sqoop-env.sh: 修改sqoop-site.xml ​ 具体配置如下文件所示: 修改config... ... [查看更多]

Views: 35

08 – Hive 3.1.2 安装

官方手册 GettingStarted Manual 1.安装及配置 Hive (1)把 Hive 的安装包 apache-hive-3.1.2-bin.tar.gz 上传到 Linux 虚拟机的/opt/download目录下, 解压 (2)将解压的文件夹移动到/opt/pkg下,同时改名为hive (3)修改/etc/profile.d/hadoop.env.sh 文件,添加环境变量。 添加以下内容。 执行以下命令使环境变量生效。 (4)进到/opt/modu... ... [查看更多]

Views: 43

07 Flume的安装与配置

安装 下载 http://flume.apache.org/download.html http://archive.apache.org/dist/flume/stable/ 这里使用最新的 apache-flume-1.9.0版本 解压安装 改目录名 配置环境变量,并让环境变量生效 修改conf/flume-env.sh,配置JDK路径(该文件事先是不存在的,需要复制一份) 复制: 编辑文件,并设置如下内容: 将hadoop-3.1.4安装路径... ... [查看更多]

Views: 117

06 Centos7的MySQL安装

卸载mariaDb mysql被oracle收购后为了防止mysql有可能变成闭源,因此mysql创始人maria就开源做了一个mariaDb, centos7是自带使用了这个数据库的.因此安装mysql之前,应当首先卸载mariadb数据库: 同理如果是已经安装过其他版本的MySQL,安装新的版本之前也需要按照如上方法进行卸载。 安装MySQL 下载mysql的YUM源: https://dev.mysql.com/downloads/repo/yum/ YUM源的官方安装说明:... ... [查看更多]

Views: 51