Skip to main content
 首页 » 操作系统 » linux系统

教你如何安装Hadoop集群?解析大数据行业必备知识技能(转载)

  一、产品介绍

  OpenBI

  Redoop平台首发产品OpenBI,多引擎混合动力、高效稳定完备的数据分析功能。 分析型数据仓库场景,支持结构化、非结构化,半结构化数据的可视化处理。

教你如何安装Hadoop集群?解析大数据行业必备知识技能(转载)  Hadoop 第1张

  二、安装集群

  创建集群,点击Launch Install Wizard进行创建进入集群创建向导。

  集群安装向导:开始

  为集群取一名字:hadoop进入选择安装包

  集群安装向导:选择软件包

  选择系统默认的软件包CRH2.3,选择OS为redhat6,

  BaseUrl:源路径

  集群安装向导:安装选项

  输入主机列表的全域名和安装的服务器的ssh私钥;

  点击下一步进入确认主机界面。

  点击OK

  集群安装向导:确认主机

  点击下一步

  点击OK继续

  集群安装向导:选择服务

  选择需要安装的服务,选择服务时会根据服务间的依赖自动添加依赖的服务。确认选择的服务无误后点击下一步

  点击OK继续

  集群安装向导:分配Masters

  分配Master角色

  集群安装向导:分配Slaves和Clients,点击下一步

  集群安装向导:定制服务

  点击继续执行

  集群安装向导:检查,部署

  集群安装向导:安装、启动并测试

  启动成功,点击下一步

  集群安装向导:概要

  集群安装完成

  三、hive

  1、hive功能

  Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。

  2、hive特性

  提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

  3、hive应用场景

  日志分析:多维度数据分析,海量结构化数据离线分析,低成本进行数据分析。

  4、hive使用

  hive> create database tc;

  OK

  Time taken: 0.665 seconds

  hive> use tc

  OK

  hive> create table gjl_test0(id varchar(20),name varchar(20),age varchar(20),addr varchar(20));

  OK

  hive> show tables;

  OK

  gjl_test0

  Time taken: 0.246 seconds, Fetched: 1 row(s)

  四、生成数据

  1、mysql

  # mysql

  Welcome to the MySQL monitor. Commands end with ; or \g.

  Your MySQL connection id is 882

  Server version: 5.1.73 Source distribution

  Copyright (c) 2000, 2013, Oracle and/or its affiliates. All rights reserved.

  Oracle is a registered trademark of Oracle Corporation and/or its

  affiliates. Other names may be trademarks of their respective

  owners.

  Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

  2、创建数据库

  Mysql>create database tc;

  Query OK, 1 row affected (0.08 sec)

  Mysql>use tc;

  Database changed

  3、创建表

  为数据库tc创建表tc_test1

  mysql>create table gjl_test0(id varchar(20),name varchar(20),age varchar(20),addr varchar(20));

  Query OK, 0 rows affected (0.33 sec)

  4、插入数据

  为数据表tc_test1插入10000条数据

  将a3.txt脚本文件中的内容粘贴至mysql中

  五、Kettle过程——数据转换设计

  1、Kettle功能

  ETL工具,数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。

  2、Kettle 应用场景

  可在Window、Linux、Unix上运行,数据分析平台中作业流设计和调度必备功能。支持power和x86。功能强大,可视化程度高,大大降低大数据平台使用门槛。

  3、Kettle 特性

  纯java编写,数据抽取高效稳定,有易于使用的GUI,可连接广泛的数据库,文件,可通过插件扩展。数据转换灵活,可以手工编写SQL语句、java代码、正则表达式等。有监控和日志管理功能,方便排错。Azkaban集成Kettle,进一步增强调度能力。

  4、Kettle安装

  1)将Kettle的包拷贝到当前机器下/mnt/data-integration/lib目录下,解压至当前目录

  2)安装图形化界面

  [root@wxb-2 data-integration]# yum groupinstall “X Window System”

  Complete!

  安装成功。

  5、Kettle 使用

  1)、建立本地资源库

  点击+号

  添加一个Kettle File Repository

  选择File System中的Kettle_repository,点击OK完成本地资源库的创建

  2)、连接数据库

  (1)新建转换

  新建一个Transformation

  (2)连接hive数据库

  建立一个数据库连接

  CC为hive数据库链接,DD为mysql数据库链接

  3)、设计转换

  (1)Mysql--->HDFS--->Hive

  (1)表输入

  在input中选择Table input,将其拖入Transformation 1界面中

  双击Table input,选择mysql连接的DD数据库链接,通过sql语句查询数据

  点击Previes可以设置预览的数据数量,我们当前设置预览数量为5,

  (2)表输出

  在Output中选择Table output,将其拖入Transformation 1界面中:

  双击Table output 进行hive数据库选择配置

  将Table input 与 Table output 连接

  点击run运行

  进入hive查询数据

  六、Spark

  1、Spark功能

  Spark是一个为速度和通用目标设计的集群计算平台。

  2、Spark特性

  Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

  3、Spark优势

  Spark 是一种可扩展的数据分析平台,它整合了内存计算的基元,因此,相对于 Hadoop 的集群存储方法,它在性能方面更具优势。Spark 是在 Scala 语言中实现的,并且利用了该语言,为数据处理提供了独一无二的环境。

  七、Azkaban

  1、Azkaban 功能

  Azkaban是工作流调度器,为解决hadoop生态圈的任务调度而开发。

  2、Azkaban 特性

  1.Web用户界面,简单易用,节约了学习成本。

  2.方便上传工作流,工作流可以在windows中编写,只要存为.job,打成zip包上传,就可以自动显示出工作流图。

  3.方便设置任务之间的关系,任务只需要在job文件中配置dependencies即可。 

  4.有执行权限设定,只要简单配置即可。

  5.模块化和可插拔机制

  6.工作流和任务的日志记录和审计

  3、Azkaban 优势

  手动安装azkaban是一个很复杂的过程,需要配置mysql,jetty ssl,还需要安装Webserver与Execute,安装之后还需要更改大量的初始化的配置。才可以正常使用。集成到redoop平台之后,用户可以自动安装,可以在ambari中配置、控制azkaban,同时azkaban运行时所产生的日志,也会固定的写在azkaban的目录中,方便用户管理查看。

  4、Azkaban 使用

  创建文件夹,用来放测试用的脚本目录。

  # mkdir test

  将上面kettle中操作的命令写在脚本gjl.sh中

  八、HBase

  1、HBase功能

  HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

  2、HBase特性

  强一致性

  水平伸缩

  支持有限查询方式和一级索引

  高性能随机写

  和Hadoop无缝集成

  3、HBase应用场景

  存储大量的数据

  需要高写吞吐量

  在大型数据集需要有效的随机存取

  结构化和半结构化数据

  九、Phoenix

  1、Phoenix功能

  Phoenix,这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询

  2、Phoenix优势

  根据项目创建者所述,对于10M到100M的行的简单查询来说,Phoenix要胜过Hive。对于使用了HBase API、协同处理器及自定义过滤器的Impala与OpenTSDB来说,进行相似的查询Phoenix的速度也会更快一些。

  3、Phoenix特性

  1)嵌入式的JDBC驱动,实现了大部分的java.sql接口,包括元数据API可以通过多部行键或是键/值单元对列进行建模

  2)完善的查询支持,可以使用多个谓词以及优化的扫描键

  3)DDL支持:通过CREATE TABLE、DROP TABLE及ALTER TABLE来添加/删除列

  4)版本化的模式仓库:当写入数据时,快照查询会使用恰当的式        

  5)DML支持:用于逐行插入的UPSERT VALUES、用于相同或不同表之间大量数据传输的UPSERT SELECT、用于删除行的DELETE

  十、Zeppelin

  1、Zeppelin 功能

  Zeppelin提供了web版的类似ipython的notebook做数据分析和可视化。

  2、Zeppelin 应用场景

  数据分析可视化领域,可实现数据采集,数据发现,数据分析,数据可视化和协作。

  支持基本图表,如:表格,柱状图,饼图,折线图等。可根据自己业务选择适合的可视化图表。

  3、Zeppelin 特性

  CRH Ambari中可以快速进行部署,可接入不同的数据处理引擎,包括spark,hive,hbase,tajo等,原生支持scala, java, shell, markdown等。Redoop平台集成Zeppelin,用户可轻松安装与配置Zeppelin,完全交给redoop平台维护,用户直接开始使用zeppelin进行业务开发。

  4、Zeppelin使用

  1)启动zeppelin服务

  2)前台访问

  前台访问Zeppelin,

  3)Hive访问

  创建新的node(hive)

  取名为mysql-kettle-azkban-hive

  即可在可视化的页面中输入sql语句查询,查询出的数据通过图形显现,使其更加的客观,拖动我们的属性至我们需要显示的keys、Groups、values

  Select * from tc.gjl_test0,查询显示数据

  通过树状图显示信息

  折线图显示信息

  4)Spark Sql访问

  创建新的node(Spark Sql)

  取名为:mysql-kettle-azkban-sparkSql

  通过Spark处理数据

  即可在可视化的页面中输入sql语句查询,查询出的数据通过图形显现,使其更加的直观,拖动我们的属性至我们需要显示的keys、Groups、values

  Select count(*) from tc.gjl_test0,查询显示数据

  Sllect * from tc.gjl_test0 limit 20

  树状图显示数据

  5)Phoenix访问

  创建新的node(Phoenix)

  取名为:mysql-kettle-azkban-phoenix

  Phoenix在可视化的页面中输入sql语句查询, Select * from test.Person查询显示数据

评论列表暂无评论
发表评论
微信