教你如何安装Hadoop集群？解析大数据行业必备知识技能(转载)_linux系统

　　一、产品介绍

　　OpenBI

　　Redoop平台首发产品OpenBI，多引擎混合动力、高效稳定完备的数据分析功能。分析型数据仓库场景，支持结构化、非结构化，半结构化数据的可视化处理。

　　二、安装集群

　　创建集群，点击Launch Install Wizard进行创建进入集群创建向导。

　　集群安装向导：开始

　　为集群取一名字：hadoop进入选择安装包

　　集群安装向导：选择软件包

　　选择系统默认的软件包CRH2.3，选择OS为redhat6，

　　BaseUrl：源路径

　　集群安装向导：安装选项

　　输入主机列表的全域名和安装的服务器的ssh私钥；

　　点击下一步进入确认主机界面。

　　点击OK

　　集群安装向导：确认主机

　　点击下一步

　　点击OK继续

　　集群安装向导：选择服务

　　选择需要安装的服务，选择服务时会根据服务间的依赖自动添加依赖的服务。确认选择的服务无误后点击下一步

　　点击OK继续

　　集群安装向导：分配Masters

　　分配Master角色

　　集群安装向导:分配Slaves和Clients,点击下一步

　　集群安装向导：定制服务

　　点击继续执行

　　集群安装向导：检查，部署

　　集群安装向导：安装、启动并测试

　　启动成功，点击下一步

　　集群安装向导：概要

　　集群安装完成

　　三、hive

　　1、hive功能

　　Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。

　　2、hive特性

　　提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。

　　3、hive应用场景

　　日志分析：多维度数据分析，海量结构化数据离线分析，低成本进行数据分析。

　　4、hive使用

　　hive> create database tc;

　　Time taken: 0.665 seconds

　　hive> use tc

　　hive> create table gjl_test0(id varchar(20),name varchar(20),age varchar(20),addr varchar(20));

　　hive> show tables;

　　gjl_test0

　　Time taken: 0.246 seconds, Fetched: 1 row(s)

　　四、生成数据

　　1、mysql

　　# mysql

　　Welcome to the MySQL monitor. Commands end with ; or \g.

　　Your MySQL connection id is 882

　　Server version: 5.1.73 Source distribution

　　Oracle is a registered trademark of Oracle Corporation and/or its

　　affiliates. Other names may be trademarks of their respective

　　owners.

　　Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.

　　2、创建数据库

　　Mysql>create database tc;

　　Query OK, 1 row affected (0.08 sec)

　　Mysql>use tc;

　　Database changed

　　3、创建表

　　为数据库tc创建表tc_test1

　　mysql>create table gjl_test0(id varchar(20),name varchar(20),age varchar(20),addr varchar(20));

　　Query OK, 0 rows affected (0.33 sec)

　　4、插入数据

　　为数据表tc_test1插入10000条数据

　　将a3.txt脚本文件中的内容粘贴至mysql中

　　五、Kettle过程——数据转换设计

　　1、Kettle功能

　　ETL工具，数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。

　　2、Kettle 应用场景

　　可在Window、Linux、Unix上运行，数据分析平台中作业流设计和调度必备功能。支持power和x86。功能强大，可视化程度高，大大降低大数据平台使用门槛。

　　3、Kettle 特性

　　纯java编写，数据抽取高效稳定，有易于使用的GUI，可连接广泛的数据库，文件，可通过插件扩展。数据转换灵活，可以手工编写SQL语句、java代码、正则表达式等。有监控和日志管理功能，方便排错。Azkaban集成Kettle,进一步增强调度能力。

　　4、Kettle安装

　　1）将Kettle的包拷贝到当前机器下/mnt/data-integration/lib目录下，解压至当前目录

　　2）安装图形化界面

　　[root@wxb-2 data-integration]# yum groupinstall “X Window System”

　　Complete!

　　安装成功。

　　5、Kettle 使用

　　1）、建立本地资源库

　　点击+号

　　添加一个Kettle File Repository

　　选择File System中的Kettle_repository，点击OK完成本地资源库的创建

　　2）、连接数据库

　　（1）新建转换

　　新建一个Transformation

　　（2）连接hive数据库

　　建立一个数据库连接

　　CC为hive数据库链接，DD为mysql数据库链接

　　3）、设计转换

　　（1）Mysql--->HDFS--->Hive

　　（1）表输入

　　在input中选择Table input，将其拖入Transformation 1界面中

　　双击Table input，选择mysql连接的DD数据库链接，通过sql语句查询数据

　　点击Previes可以设置预览的数据数量，我们当前设置预览数量为5，

　　（2）表输出

　　在Output中选择Table output，将其拖入Transformation 1界面中：

　　双击Table output 进行hive数据库选择配置

　　将Table input 与 Table output 连接

　　点击run运行

　　进入hive查询数据

　　六、Spark

　　1、Spark功能

　　Spark是一个为速度和通用目标设计的集群计算平台。

　　2、Spark特性

　　Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

　　3、Spark优势

　　Spark 是一种可扩展的数据分析平台，它整合了内存计算的基元，因此，相对于 Hadoop 的集群存储方法，它在性能方面更具优势。Spark 是在 Scala 语言中实现的，并且利用了该语言，为数据处理提供了独一无二的环境。

　　七、Azkaban

　　1、Azkaban 功能

　　Azkaban是工作流调度器，为解决hadoop生态圈的任务调度而开发。

　　2、Azkaban 特性

　　1.Web用户界面，简单易用，节约了学习成本。

　　2.方便上传工作流，工作流可以在windows中编写，只要存为.job，打成zip包上传，就可以自动显示出工作流图。

　　3.方便设置任务之间的关系，任务只需要在job文件中配置dependencies即可。

　　4.有执行权限设定，只要简单配置即可。

　　5.模块化和可插拔机制

　　6.工作流和任务的日志记录和审计

　　3、Azkaban 优势

　　手动安装azkaban是一个很复杂的过程，需要配置mysql，jetty ssl，还需要安装Webserver与Execute，安装之后还需要更改大量的初始化的配置。才可以正常使用。集成到redoop平台之后，用户可以自动安装，可以在ambari中配置、控制azkaban，同时azkaban运行时所产生的日志，也会固定的写在azkaban的目录中，方便用户管理查看。

　　4、Azkaban 使用

　　创建文件夹，用来放测试用的脚本目录。

　　# mkdir test

　　将上面kettle中操作的命令写在脚本gjl.sh中

　　八、HBase

　　1、HBase功能

　　HBase – Hadoop Database，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

　　2、HBase特性

　　强一致性

　　水平伸缩

　　支持有限查询方式和一级索引

　　高性能随机写

　　和Hadoop无缝集成

　　3、HBase应用场景

　　存储大量的数据

　　需要高写吞吐量

　　在大型数据集需要有效的随机存取

　　结构化和半结构化数据

　　九、Phoenix

　　1、Phoenix功能

　　Phoenix，这是一个Java中间层，可以让开发者在Apache HBase上执行SQL查询

　　2、Phoenix优势

　　根据项目创建者所述，对于10M到100M的行的简单查询来说，Phoenix要胜过Hive。对于使用了HBase API、协同处理器及自定义过滤器的Impala与OpenTSDB来说，进行相似的查询Phoenix的速度也会更快一些。

　　3、Phoenix特性

　　1）嵌入式的JDBC驱动，实现了大部分的java.sql接口，包括元数据API可以通过多部行键或是键/值单元对列进行建模

　　2）完善的查询支持，可以使用多个谓词以及优化的扫描键

　　3）DDL支持：通过CREATE TABLE、DROP TABLE及ALTER TABLE来添加/删除列

　　4）版本化的模式仓库：当写入数据时，快照查询会使用恰当的式

　　5）DML支持：用于逐行插入的UPSERT VALUES、用于相同或不同表之间大量数据传输的UPSERT SELECT、用于删除行的DELETE

　　十、Zeppelin

　　1、Zeppelin 功能

　　Zeppelin提供了web版的类似ipython的notebook做数据分析和可视化。

　　2、Zeppelin 应用场景

　　数据分析可视化领域，可实现数据采集，数据发现，数据分析，数据可视化和协作。

　　支持基本图表，如：表格，柱状图，饼图，折线图等。可根据自己业务选择适合的可视化图表。

　　3、Zeppelin 特性

　　CRH Ambari中可以快速进行部署，可接入不同的数据处理引擎，包括spark，hive，hbase,tajo等，原生支持scala, java, shell, markdown等。Redoop平台集成Zeppelin，用户可轻松安装与配置Zeppelin，完全交给redoop平台维护，用户直接开始使用zeppelin进行业务开发。

　　4、Zeppelin使用

　　1）启动zeppelin服务

　　2）前台访问

　　前台访问Zeppelin，

　　3）Hive访问

　　创建新的node（hive）

　　取名为mysql-kettle-azkban-hive

　　即可在可视化的页面中输入sql语句查询，查询出的数据通过图形显现，使其更加的客观，拖动我们的属性至我们需要显示的keys、Groups、values

　　Select * from tc.gjl_test0，查询显示数据

　　通过树状图显示信息

　　折线图显示信息

　　4）Spark Sql访问