大数据——配置并启动集群/开启历史服务器和日志聚集

上篇文章通过克隆将集群搭建出来,这篇文章对Hadoop进行配置,修改配置文件,启动并测试集群。开去历史服务器以及日志聚集。

部署规划

hadoop102 hadoop103 hadoop104 HDFS NameNode DataNode DataNode SencondNameNode DataNode

YARN NodeManager ResourceManager、NodeManager NodeManager

  • NameNodeSecondNameNode不要安装在同一台服务器上
  • ResourceManager也很消耗内存,不要和 NameNodeSecondNameNode配置在同一台机器上

配置文件

1、默认配置文件

默认配置文件可在对应的jar包中找到

配置文件 配置文件位置 core-default.xml hadoop-common-3.1.3.jar/core-default.xml hdf-default.xml hadoop-hdfs-3.1.3.jar/hdfs-default.xml yarn-default.xml hadoop-yarn-common-3.1.3.jar/yarn-default.xml mapred-default.xml hadoop-mapreduce-client-core-3.1.3.jar/mapred-default.xml

2、自定义配置文件

$HADOOP_HOME/etc/hadoop

文章使用的时 /opt/module/hadoop-3.1.3/etc/hadoop

配置集群

所有操作在 swcode用户进行,非 root

在hadoop102上配置

1、核心配置文件: core-site.xml

vim /opt/module/hadoop-3.1.3/etc/hadoop/core-site.xml

内容如下


        fs.defaultFS
        hdfs://hadoop102:8020

        hadoop.tmp.dir
        /opt/module/hadoop-3.1.3/data

        hadoop.http.staticuser.user
        swcode

2、HDFS配置文件: hdfs-site.xml

vim /opt/module/hadoop-3.1.3/etc/hadoop/hdfs-site.xml

内容如下


        dfs.namenode.http-address
        hadoop102:9870

        dfs.namenode.secondary.http-address
        hadoop104:9868

3、YARN配置文件: yarn-site.xml

vim /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

内容如下


        yarn.nodemanager.aux-services
        mapreduce_shuffle

        yarn.resourcemanager.hostname
        hadoop103

        yarn.nodemanager.env-whitelist
        JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_HOME,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

4、MapReduce配置文件: mapred-site.xml

vim /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml

内容如下


        mapreduce.framework.name
        yarn

分发配置文件

xsync是自定义的 sync脚本

xsync /opt/module/hadoop-3.1.3/etc/hadoop/

启动集群

1、配置 workers

vim /opt/module/hadoop-3.1.3/etc/hadoop/workers

新增一下内容,内容结尾不允许空格,文件中不允许出现空行

hadoop102
hadoop103
hadoop104

像下面这样

大数据——配置并启动集群/开启历史服务器和日志聚集

2、分发 workers

xsync /opt/module/hadoop-3.1.3/etc/hadoop/workers

3、第一次启动初始化( hadoop102

hdfs namenode -format

/opt/module/hadoop-3.1.3会多出两个文件夹: /data/logs

4、启动HDFS( hadoop102

start-dfs.sh

启动成功后,每台主机分别运行下面代码,检查一下

jps

根据规划的部署,应该和下面一样

  • hadoop102JpsDataNodeNameNode
  • hadoop103DataNodeJps
  • hadoop104DataNodeSecondaryNameNodeJps

查看Web页面:http://192.168.10.102:9870/

5、启动YARN

来到配置了 ResourceManager的节点( hadoop103

start-yarn.sh

对照部署规划,一样就说明成功了~

查看YARN资源调度页面:http:192.168.10.103:8088

测试集群

1、上传文件到HDFS( hadoop102上)

创建目录
hadoop fs -mkdir /wcinput
上传文件
hadoop fs -put /opt/module/hadoop-3.1.3/wcinput/words.txt /wcinput

words.txt是之前使用 wordcount做的小案例

查看效果:Browsing HDFS

大数据——配置并启动集群/开启历史服务器和日志聚集

2、再次运行 wordcount案例

来到 hadoop 安装目录
cd /opt/module/hadoop-1.3.1/
执行
hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /wcinput /wcoutput

来到YARN资源调度页面:http:192.168.10.103:8088

可以看到一条资源调度记录

大数据——配置并启动集群/开启历史服务器和日志聚集

查看效果:Browsing HDFS

大数据——配置并启动集群/开启历史服务器和日志聚集

配置历史服务器

1、配置 mapred-site.xml(在 hadoop102上配置)

vim /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml

增加配置文件


    mapreduce.jobhistory.address
    hadoop102:10020

    mapreduce.jobhistory.webapp.address
    hadoop102:19888

2、分发配置

xsync /opt/module/hadoop-3.1.3/etc/hadoop/mapred-site.xml

3、在 hadoop102中启动历史服务器

mapred --daemon start historyserver

需要重启 yarn,在 hadoop103中重启 yarn(本文的 yarn配置在 hadoop103中)

stop-yarn.sh
start-yarn.sh

4、查看历史服务器是否启动

[swcode@hadoop102 ~]$ jps
123607 DataNode
123403 NameNode
127613 JobHistoryServer
127773 Jps
125615 NodeManager

配置日志聚集

1、修改 yarn-site.xml

vim /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

增加如下内容


    yarn.log-aggregation-enable
    true

    yarn.log.server.url
    http://hadoop102:19888/jobhistory/logs

    yarn.log-aggregation.retain-seconds
    604800

2、分发配置

xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

3、在 hadoop102中停止历史服务器

mapred --daemon stop historyserver

4、在 hadoop103中重启 yarn

stop-yarn.sh
start-yarn.sh

5、在 hadoop102中停启动历史服务器

mapred --daemon start historyserver

4、在 hadoop103中重启 yarn

下篇文章:大数据集群服务启停脚本/常用端口/时间同步
所有文章:
搭建第一台Hadoop主机
Linux之间的文件传输方式
克隆主机并配置集群
配置并启动集群/开启历史服务器和日志聚集
大数据集群服务启停脚本/常用端口/时间同步

Original: https://www.cnblogs.com/sw-code/p/15560779.html
Author: sw-code
Title: 大数据——配置并启动集群/开启历史服务器和日志聚集

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/585580/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 代码审计-Typecho反序列化getshell

    0x01 漏洞代码 install.php: php $config = unserialize(base64_decode(Typecho_Cookie::…

    Linux 2023年5月28日
    082
  • 【科研数学】概率论,线性代数,高等数学、离散数学和数值分析;计算机应用数学;机器学习,深度学习,强化学习;

    本科过去了很久,中间也没经历考研,硕士期间又一直在系统方向做工作,数学知识忘记了很多; 现在读博了,做 System for AI、调度,以及一些最优化的问题,都会涉及到数学的内容…

    Linux 2023年6月13日
    082
  • python之pyautogui实现图片识别-办公自动化

    环境 python 3.8everedit编辑器 代码 from selenium import webdriver from selenium.webdriver.chrome….

    Linux 2023年6月7日
    0105
  • [Git专题] 环境搭建

    环境搭建 在正式使用 Git 之前,首先应当安装 Git 并完成一些基础配置,本章内容就教大家在 Ubuntu 和 CentOS 上安装 Git 的方法。 如果你使用的是基于 De…

    Linux 2023年5月27日
    084
  • STP 指定端口 根端口 区别和理解

    不多说,先上图,A为指定端口,B为非指定端口。 看本文的网友应该知道根端口和指定端口的选举,但是对指定端口和根端口的理解不清楚。这里我就略过选举过程,直接描述这两者的区别和存在的意…

    Linux 2023年6月6日
    0136
  • Vim配置文件-详解(.vimrc)

    Vim配置文件的作用 Vim启动时,会根据配置文件(.vimrc)来设置 Vim,因此我们可以通过此文件来定制适合自己的 Vim 所有系统用户在启动Vim时,都会加载这个配置文件。…

    Linux 2023年6月13日
    081
  • C++Lambda表达式

    C++ 11 中的 Lambda 表达式用于定义并创建匿名的函数对象,以简化编程工作。 Lambda 的语法形式如下: [捕获列表] (参数) mutable 或 exceptio…

    Linux 2023年6月8日
    0105
  • Linux如何让修改的配置生效?

    因为一般情况下服务只在启动时读取配置文件,修改配置文件后如果不重启服务,服务无法检测到被修改的内容,还会保持原来的配置。所以我们要重启服务来让服务重新读取配置文件。 (1)方法一:…

    Linux 2023年6月8日
    069
  • Python 内置logging 使用详细讲

    logging 的主要作用 提供日志记录的接口和众多处理模块,供用户存储各种格式的日志,帮助调试程序或者记录程序运行过程中的输出信息。 logging 日志等级 logging 日…

    Linux 2023年6月7日
    071
  • Redis多线程原理详解

    从上图中可以看出只有以下3个地方用的是多线程,其他地方都是单线程: 1:接收请求参数 2:解析请求参数 3:请求响应,即将结果返回给client 很明显以上3点各个请求都是互相独立…

    Linux 2023年5月28日
    070
  • 从零开始制作一个linux iso镜像

    一、前言 对于一个极简化的linux系统而言,只需要三个部分就能组成,它们分别是一个linux内核、一个根文件系统和引导。以下是本文制作linux iso镜像所用到的系统和软件: …

    Linux 2023年5月27日
    077
  • 关于如何在Idea下进行多子项目及引用内部子项目情况下打包项目的方法

    近期在开发Java的时候遇到了如下的打包上的问题 需要将一个工程下面的子工程分别打包 有的子工程还包含了另一个子工程 在这种情况下打包会出现找不到子模块的情况。 JDK:1.8 开…

    Linux 2023年6月14日
    091
  • Go-interface基本概念

    interface类型可以定义一组方法,但是这些不需要实现。并且interface不能包含任何变量。到某个自定义类型要使用的时候,再根据具体情况把这些方法写出来。 定义一个接口: …

    Linux 2023年6月8日
    095
  • @Aspect

    AOP是指在程序运行期间动态地将某段代码切入到指定位置并运行的编程方式。 AOP详解可参考:https://blog.csdn.net/javazejian/article/det…

    Linux 2023年6月8日
    091
  • 网卡的RX Ring和TX Ring

    1 简介 环形缓冲(ring buffer)是NIC处理数据包的一种通用数据结构,出现的原因是现代NIC基本使用DMA进行数据传输,作为一种高效简单[1]的数据结构,环形缓冲很 适…

    Linux 2023年6月7日
    094
  • 网络设备配置–8、利用ospf配置动态路由

    一、前言 同系列前几篇:网络设备配置–1、配置交换机enable、console、telnet密码网络设备配置–2、通过交换机划分vlan网络设备配置&#8…

    Linux 2023年6月8日
    099
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球