Yarn 集群环境 HA 搭建

阅读原文时间：2023年07月10日阅读：1

环境准备

确保主机搭建 HDFS HA 运行环境

步骤一：修改 mapred-site.xml 配置文件

 [root@node-01 ~]# cd /root/apps/hadoop-3.2.1/etc/hadoop/
 [root@node-01 hadoop]# vim mapred-site.xml
 <configuration>
         <!-- 配置MapReduce程序运行模式 为 yarn（不配置默认为 local 模式) -->
        <property>
                  <name>mapreduce.framework.name</name>
                  <value>yarn</value>
         </property>

        <!-- 设置 hadoop 路径 -->
        <property>
            <name>mapreduce.application.classpath</name>
            <value>/root/apps/hadoop-3.2.1/etc/hadoop:/root/apps/hadoop-3.2.1/share/hadoop/common/lib/*:/root/apps/hadoop-3.2.1/share/hadoop/common/*:/root/apps/hadoop-3.2.1/share/hadoop/hdfs:/root/apps/hadoop-3.2.1/share/hadoop/hdfs/lib/*:/root/apps/hadoop-3.2.1/share/hadoop/hdfs/*:/root/apps/hadoop-3.2.1/share/hadoop/mapreduce/lib/*:/root/apps/hadoop-3.2.1/share/hadoop/mapreduce/*:/root/apps/hadoop-3.2.1/share/hadoop/yarn:/root/apps/hadoop-3.2.1/share/hadoop/yarn/lib/*:/root/apps/hadoop-3.2.1/share/hadoop/yarn/*</value>
        </property>

</configuration>

步骤二：修改yarn-env.sh 配置文件

[root@node-01 ~]# cd /root/apps/hadoop-3.2.1/etc/hadoop
[root@node-01 hadoop]# echo 'export JAVA_HOME=${JAVA_HOME}' >> yarn-env.sh

步骤三：修改 yarn-site.xml 配置文件

[root@node-01 ~]# cd /root/apps/hadoop-3.2.1/etc/hadoop/
[root@node-01 hadoop]# vim yarn-site.xml
<configuration>
<!-- 配置 NodeManager上运行的附属服务（指定 MapReduce 中 reduce 读取数据方式） -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

    <!-- 配置 yarn 集群标识 id -->
    <property>
        <name>yarn.resourcemanager.cluster-id</name>
        <value>yarncluster</value>
    </property>

    <!-- 启用 yarn HA(高可用) -->
    <property>
        <name>yarn.resourcemanager.ha.enabled</name>
        <value>true</value>
    </property>

    <!-- 配置 resourcemanager 逻辑 ids 名称-->
    <property>
        <name>yarn.resourcemanager.ha.rm-ids</name>
        <value>rm1,rm2</value>
    </property>

    <!-- 配置 resourcemanager1 启动主机名-->
    <property>
        <name>yarn.resourcemanager.hostname.rm1</name>
        <value>node-01</value>
    </property>

    <!-- 配置 resourcemanager2 启动主机名 -->
    <property>
        <name>yarn.resourcemanager.hostname.rm2</name>
        <value>node-02</value>
    </property>

    <!--  配置 resourcemanager1 web 浏览器地址 -->
    <property>
        <name>yarn.resourcemanager.webapp.address.rm1</name>
        <value>node-01:8088</value>
    </property>

    <!--  配置 resourcemanager2 web 浏览器地址 -->
    <property>
        <name>yarn.resourcemanager.webapp.address.rm2</name>
        <value>node-02:8088</value>
    </property>

    <!--配置 zk 集群地址-->
    <property>
        <name>hadoop.zk.address</name>
        <value>node-01:2181,node-02:2181,node-03:2181</value>
    </property>

    <!-- 启用 resourcemanager 重启自动恢复 -->
    <property>
        <name>yarn.resourcemanager.recovery.enabled</name>
        <value>true</value>
    </property>

    <!-- 有三种StateStore，分别是基于 zookeeper, HDFS, leveldb, HA 高可用集群必须用 ZKRMStateStore -->
    <property>
        <name>yarn.resourcemanager.store.class</name>
        <value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>
    </property>

    <!-- 配置自动检测硬件（默认关闭) -->
    <property>
        <name>yarn.nodemanager.resource.detect-hardware-capabilities</name>
        <value>true</value>
    </property>

    <!-- 配置 nodemanager 启动要求的最低配置-->
     <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>1024</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.cpu-vcores</name>
        <value>1</value>
    </property>

</configuration>

步骤四：scp 这个 yarn-site.xml 到其他节点

[root@node-01 ~]# cd /root/apps/hadoop-3.2.1/etc/hadoop/
[root@node-01 ~]# scp mapred-site.xml node-02:$PWD
[root@node-01 ~]# scp mapred-site.xml node-03:$PWD
[root@node-01 ~]# scp yarn-env.sh node-02:$PWD
[root@node-01 ~]# scp yarn-env.sh node-03:$PWD
[root@node-01 ~]# scp yarn-site.xml node-02:$PWD
[root@node-01 ~]# scp yarn-site.xml node-03:$PWD

步骤五：启动 yarn 集群

[root@node-01 ~]# start-yarn.sh

stop-yarn.sh ：停止 yarn 集群

步骤六：用 jps 检查 yarn 的进程

[root@node-01 ~]# jps
16800 ResourceManager
12050 NameNode
11878 JournalNode
12362 DFSZKFailoverController
11739 QuorumPeerMain
16941 NodeManager
12174 DataNode

[root@node-02 ~]# jps
11616 JournalNode
13492 ResourceManager
11926 DataNode
11803 NameNode
11452 QuorumPeerMain
12046 DFSZKFailoverController

# 手动启动 node-02 和 node-03 nodemanger 进程
[root@node-02 ~]# yarn --daemon start nodemanager
[root@node-03 ~]# yarn --daemon start nodemanager

yarn --daemon stop nodemanager 停止nodemanger进程

步骤七：用 web 浏览器查看 yarn 的网页

node-01：http://192.168.229.21:8088/cluster/cluster

node-02：http://192.168.229.22:8088/cluster/cluster

步骤八：测试 ResourceManager 故障转移

# node-02 上关闭 resourcemanager 进程
[root@node-02 logs]# yarn --daemon stop resourcemanager

查看 node-01：http://192.168.229.21:8088/cluster/cluster，发现状态由 standby 变为 active，说明已经进行故障转移

将 node-02 上 resourcemanager 进程再次启动

[root@node-02 logs]# yarn --daemon start resourcemanager

这时，node-02 上的 resourcemanager 则变为 standby 状态，故障转移测试完成：）

步骤九：测试 Yarn 集群运行 wordcount 程序

将 wordcount 程序进行 Jar 打包并上传，执行 wordcount 程序

执行 MapReduce 程序命令格式：hadoop jar xxxx.jar 类全名(main 方法的类名和包名）

[root@node-01 ~]# ll
总用量 138368
drwxr-xr-x. 5 root root        69 4月   4 23:36 apps
-rw-r--r--. 1 root root   6870038 4月   8 13:12 MapReduceDemo-1.0-SNAPSHOT.jar
[root@node-01 hadoop]# hadoop jar MapReduceDemo-1.0-SNAPSHOT.jar wordcount.JobSubmitterLinuxToYarn
2021-04-08 20:00:17,739 INFO mapreduce.Job: Job job_1617883180833_0001 completed successfully #表示 Job 执行成功

手机扫一扫

移动阅读更方便

你可能感兴趣的文章

trino on yarn