[HBase]往 HBase 导入数据的几种操作

往 HBase 导入数据的几种操作 文章目录 一、前言 二、利用ImportTsv将csv文件导入到HBase 三、利用completebulkload将数据导入到HBase 四、利用Import将数据导入到HBase 一、前言 HBase作为Hadoop DataBase,除了使用put进行数据导入之外,还有以下几种导入数据的方式: (1)使用importTsv功能将csv文件导入HBase; (2)使用import功能,将数据导入HBase; (3)使用BulkLoad功能将数据... ... [查看更多]

Views: 459

电商日志分析项目 – 05 改用Spark进行日志分析

什么是 Spark Apache Spark是一个快速通用的集群计算系统,是一种与Hadoop相似的开源集群计算环境,但是Spark在某些工作负载方面表现得更加优越。它提供了Java. Scala. Python和R的高级API,以及一个支持通用的执行图计算的优化引擎。它还支持一组丰富的高级工具,包括使用SQL进行结构化数据处理的Spark SQL. 用于机器学习的MLlib. 用于图处理的GraphX,以及用于实时流处理的Spark Streaming。 Spark的主要特点: ... ... [查看更多]

Views: 373

Spark Streaming 实时流处理引擎

01 什么是Spark Streaming Spark Streaming是Spark Core API(Spark RDD)的扩展,支持对实时数据流进行可伸缩、高吞吐量、容错处理。数据可以从Kafka、Flume、Kinesis或TCP Socket等多种来源获取,并且可以使用复杂的算法处理数据,这些算法由map()、reduce()、join()和window()等高级函数表示。处理后的数据可以推送到文件系统、数据库等存储系统。事实上,可以将Spark的机器学习和图形处理算法应用... ... [查看更多]

Views: 152

Spark SQL 结构化数据处理引擎

什么是Spark SQL Spark SQL是一个用于结构化数据处理的Spark组件。所谓结构化数据,是指具有Schema信息的数据,例如json、parquet、avro、csv格式的数据。与基础的Spark RDD API不同,Spark SQL提供了对结构化数据的查询和计算接口。 Spark SQL的主要特点: 将SQL查询与Spark应用程序无缝组合 Spark SQL允许使用SQL在Spark程序中查询结构化数据。与Hive不同的是,Hive是将SQL翻译成MapRedu... ... [查看更多]

Views: 138