Hadoop HA集群搭建

阅读原文时间：2021年04月20日阅读：1

Hadoop HA集群搭建

一：在安装搭建之前简单了解一下 hadoop ha

为什么会有hadoop HA机制呢？

HA：High Available，高可用在Hadoop 2.0之前,在HDFS 集群中NameNode 存在单点故障

对于只有一个 NameNode 的集群，如果 NameNode 机器出现故障(比如宕机或是软件、硬件升级)，那么整个集群将无法使用，直到 NameNode 重新启动

如何解决呢？

HDFS的HA功能通过配置Active/Standby两个NameNodes实现在集群中对 NameNode 的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将 NameNode 很快的切换到另外一台机器。

在一个典型的 HDFS(HA) 集群中，使用两台单独的机器配置为 NameNodes 。在任何时间点，确保 NameNodes 中只有一个处于 Active 状态，其他的处在 Standby 状态。其中 ActiveNameNode 负责集群中的所有客户端操作，StandbyNameNode 仅仅充当备机，保证一旦 ActiveNameNode 出现问题能够快速切换。

为了能够实时同步 Active 和 Standby 两个 NameNode 的元数据信息（实际上 editlog），需提供一个共享存储系统，可以是 NFS、QJM（Quorum Journal Manager）或者 Zookeeper，Active Namenode 将数据写入共享存储系统，而 Standby 监听该系统，一旦发现有新数据写入，则读取这些数据，并加载到自己内存中，以保证自己内存状态与 Active NameNode 保持基本一致，如此这般，在紧急情况下 standby 便可快速切为 active namenode。为了实现快速切换， Standby 节点获取集群的最新文件块信息也是很有必要的。为了实现这一目标，DataNode 需要配置 NameNodes 的位置，并同时给他们发送文件块信息以及心跳检测。

二：Hadoop HA集群安装搭建

1.首先第一步毋庸置疑的是需要做hadoop集群规划

描述：hadoop HA 集群的搭建依赖于 zookeeper，所以选取三台当做 zookeeper 集群我总共准备了三台主机，分别是 hadoop01，hadoop02，hadoop03 ，其中 hadoop01 和 hadoop02 做 namenode 的主备切换，hadoop02 和 hadoop03 做 resourcemanager 的主备切换（这个依据自己集群节点的数量来规划,可自由设置）

三台机器的节点分布

hadoop01

hadoop02

hadoop03

namenode

✔

datanode

✔

resourcemanager

✔

nodemanager

✔

zookeeper

✔

journalnode

✔

zkfc

✔

2.集群服务器准备（这个环节比较简单，在这里就不详细概述了）

1、修改主机名 vi /etc/sysconfig/network (ps:我三台服务器都修改了，分别为hadoop01，hadoop02，hadoop03)

2、修改 IP 地址

3、添加主机名和 IP 映射

4、添加普通用户 hadoop 用户并配置 sudoer 权限

5、设置系统启动级别

6、同步服务器时间

7、关闭防火墙/关闭 Selinux

8、配置 SSH 免密登录

9、安装 JDK

3.安装zookeeper集群

在此略过，可参考我的另外一篇博客：Zookeeper的集群搭建与配置（二）https://blog.csdn.net/qq_36508766/article/details/81336588

4.安装并配置hadoop ha集群

（ps:如果之前安装过普通的分布式hadoop集群，需要删除相关数据文件，修改配置，建议全部卸载重新安装）

1.上传安装包hadoop-2.7.6.tar.gz

2.解压安装包到对应的安装目录 tar -zxvf hadoop-2.7.6.tar.gz -C apps/

3.修改配置文件 (修改相关配置key的作用都已在注释)

(PS:我的配置文件路径 /home/hadoop/apps/hadoop-2.7.6/etc/hadoop )

3.1 修改hadoop-env.sh 配置jdk ----vi hadoop-env.sh

3.2 修改core-site.xml

fs.defaultFS hdfs://myha01/

hadoop.tmp.dir /home/hadoop/data/hadoopdata/

ha.zookeeper.quorum hadoop01:2181,hadoop02:2181,hadoop03:2181

3.3 修改 hdfs-site.xml

dfs.replication 2

dfs.nameservices myha01

dfs.ha.namenodes.myha01 nn1,nn2

dfs.namenode.rpc-address.myha01.nn1 hadoop01:9000

dfs.namenode.http-address.myha01.nn1 hadoop01:50070

dfs.namenode.rpc-address.myha01.nn2 hadoop02:9000

dfs.namenode.http-address.myha01.nn2 hadoop02:50070

dfs.namenode.shared.edits.dir qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/myha01

dfs.journalnode.edits.dir /home/hadoop/data/hadoopdata/journaldata

dfs.ha.automatic-failover.enabled true

dfs.client.failover.proxy.provider.myha01 org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods sshfence shell(/bin/true)

dfs.ha.fencing.ssh.private-key-files /home/hadoop/.ssh/id_rsa

dfs.ha.fencing.ssh.connect-timeout 30000

3.4 修改 mapred-site.xml （PS:没有mapred-site.xml文件可以建一个例： cp mapred-site.xml.template mapred-site.xml）

    mapreduce.framework.name     yarn

   mapreduce.jobhistory.address hadoop01:10020

   mapreduce.jobhistory.webapp.address hadoop01:19888

3.5修改yarn-site.xml

yarn.resourcemanager.ha.enabled true

yarn.resourcemanager.cluster-id yrc

yarn.resourcemanager.ha.rm-ids rm1,rm2

yarn.resourcemanager.hostname.rm1 hadoop02
yarn.resourcemanager.hostname.rm2 hadoop03

yarn.resourcemanager.zk-address hadoop01:2181,hadoop02:2181,hadoop03:2181

yarn.nodemanager.aux-services mapreduce_shuffle

yarn.log-aggregation-enable true

yarn.log-aggregation.retain-seconds 86400

yarn.resourcemanager.recovery.enabled true

yarn.resourcemanager.store.class org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

3.6 修改slaves添加集群节点地址 vi slaves (ps:切记不要留多余空格和空行)

4.配置环境变量vi /etc/profile

5.将配置好的hadoop发送至其他节点，我这里是hadoop01发送到hadoop02，hadoop03

scp -r apps/hadoop-2.7.6/ hadoop2:~/apps/

6.同步其他节点的/etc/profile文件（或者分别配置hadoop_home），然后重新加载source /etc/profile

5.集群初始化操作

5.1先启动zookeeper集群

启动：zkServer.sh start(要求半数以上的节点启动，我这里三台服务器全部启动了)

检查启动是否正常：zkServer.sh status

1个leader ，2个follower（我这里没有规划observer）

5.2、分别在每个 zookeeper（也就是规划的三个 journalnode 节点，不一定跟 zookeeper 节点一样）节点上启动 journalnode 进程

hadoop-daemon.sh start journalnode

然后用 jps 命令查看是否各个 datanode 节点上都启动了 journalnode 进程如果报错，根据错误提示改进

5.3 在第一个 namenode 上执行格式化操作 hadoop namenode -format

然后会在 core-site.xml 中配置的临时目录中生成一些集群的信息

hadoop.tmp.dir /home/hadoop/data/hadoopdata/

把dfs拷贝的第二个 namenode 的相同目录下 scp -r /home/hadoop/data/hadoopdata/dfs hadoop02:~/data/hadoopdata/

5.4 格式化 ZKFC

hdfs zkfc -formatZK 在第一台机器上即可

5.5启动HDFS start-dfs.sh 启动YARN start-yarn.sh （另外一个主节点的rm不会启动需要手动启动 yarn-daemon.sh start resourcemanager）

jps 命令查看各节点进程是否启动正常

zkfc:DFSZKFailoverController

zookeeper:QuorumPeerMain

（PS：如果发现有进程没有启动成功，手动启动，例：hadoop-daemon.sh start journalnode / yarn-daemon.sh start resourcemanager）

5.6 访问页面 http://hadoop01:50070/

http://hadoop02:50070/

6.验证

1.验证namenode的高可用：

先把active namenode（hadoop01）的namenode进程kill掉，再访问http://hadoop02:50070/

验证原来standby namenode会不会自行切换为active namenode,如果standby状态切换为了active状态，即成功。

2. 验证resourcemanager的高可用：
验证：运行一个jar包过程中把active的kill掉
理论上可以，可自行验证下

手机扫一扫

移动阅读更方便

你可能感兴趣的文章

征服 Redis + Jedis + Spring （一）—— 配置&常规操作（GET SET DEL）

hadoop ha 只能同时启动一个namenode问题的解决方案

Hadoop-HA模式（详解）

hadoop 集群部署与故障转移其一(hdfs HA与yarn HA)

hadoop2.4 ha(双namenode自动故障转移安装)

HDFS HA系列实验之五：client 配置

hadoop namenode HA 高可用概念及配置说明

Hadoop HDFS高可用性(HA) 部署篇

HDFS 3.1.2 HA 分布式安装部署

解决hadoop启动时的dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured.错误