Sqoop环境安装

问题陈述 Sqoop是Hadoop生态系统和RDBMS之间进行数据传输的一个工具。在学习Sqoop之前首先需要完成学习环境的搭建。这里为了学习方便,采用单机部署方式。 最初Sqoop是Hadoop的一个子项目,它设计只能在Linux操作系统上运行。 先决条件 安装Sqoop的必要前提条件是: 准备Linux操作系统(Centos7) 安装Java环境(JDK1.8) 安装Hadoop环境(Hadoop 3.1.4) 另外为了学习Sqoop的大部分功能,还需要需要安装: Zook... ... [查看更多]

Views: 899

04 回归与聚类算法

线性回归 学习目标 记忆线性回归的原理过程 应用LinearRegression或SGDRegressor实现回归预测 记忆回归算法的评估标准及其公式 应用 波士顿房价预测 1、 线性回归的原理 1.1 线性回归应用场景\ 房价预测 销售额度预测 金融:贷款额度预测、利用线性回归以及系数分析因子 1.2 什么是线性回归 1.2.1定义与公式 线性回归(Linear regress... ... [查看更多]

Views: 284

泰坦尼克号乘员数据分析

数据集来源 https://aistudio.baidu.com/aistudio/datasetdetail/6374 泰坦尼克号乘客数据分析 可以观察到,PassengerId\Name\Ticket 等提供不了和生还有关的有效信息,在分析前可以先去掉。 由此可见,Age/Cabin/Embarked 等字段有丢失值,在稍后的分析中应该先处理丢失值问题。 基本情况 这891名乘客中,生还和未生还的比例分别为 38% 和 62%。 下面,分别分析 Pclass、... ... [查看更多]

Views: 139

03 分类算法

数据集介绍与划分 学习目标 目标知道数据集的分为训练集和测试集知道sklearn的分类、回归数据集 拿到的数据是否全部都用来训练一个模型? 数据集的划分 机器学习一般的数据集会划分为两个部分: 训练数据:用于训练,构建模型测试数据:在模型检验时使用,用于评估模型是否有效 划分比例: 训练集:70% 80% 75%测试集:30% 20% 30% API sklearn.model_selection.train_test_s... ... [查看更多]

Views: 162