Hadoop集群搭建的详细过程

Hadoop集群搭建

一、准备

三台虚拟机：master01，node1,node2
时间同步

1.date&#x547D;&#x4EE4;&#x67E5;&#x770B;&#x4E09;&#x53F0;&#x865A;&#x62DF;&#x673A;&#x65F6;&#x95F4;&#x662F;&#x5426;&#x4E00;&#x81F4;
2.&#x4E0D;&#x4E00;&#x81F4;&#x65F6;&#x95F4;&#x540C;&#x6B65;&#xFF1A;ntpdate ntp.aliyun.com

调整时区

cp  /usr/share/zoneinfo/Asia/Shanghai  /etc/localtime

查看jdk

java-version

修改主机名

&#x4E09;&#x53F0;&#x5206;&#x522B;&#x6267;&#x884C;vim /etc/hostname &#x4FEE;&#x6539;&#x4E3A;&#x6307;&#x5B9A;&#x7684;&#x4E3B;&#x673A;&#x540D;

关闭防火墙

systemctl stop firewalld

查看防火墙状态

systemctl status firewalld

取消防火墙自启

systemctl disable firewalld

静态ip设置手动编辑配置文件

1&#x3001;&#x7F16;&#x8F91;&#x7F51;&#x7EDC;&#x914D;&#x7F6E;&#x6587;&#x4EF6;
vim /etc/sysconfig/network-scripts/ifcfg-ens33
TYPE=Ethernet
BOOTPROTO=static
HWADDR=00:0C:29:E2:B8:F2
NAME=ens33
DEVICE=ens33
ONBOOT=yes
IPADDR=192.168.137.150
GATEWAY=192.168.137.2
NETMASK=255.255.255.0
DNS1=192.168.190.2
DNS2=223.6.6.6

&#x9700;&#x8981;&#x4FEE;&#x6539;&#xFF1A;HWADDR&#xFF08;mac&#x5730;&#x5740;,centos7&#x4E0D;&#x9700;&#x8981;&#x624B;&#x52A8;&#x6307;&#x5B9A;mac&#x5730;&#x5740;&#xFF09;
        IPADDR&#xFF08;&#x6839;&#x636E;&#x81EA;&#x5DF1;&#x7684;&#x7F51;&#x6BB5;&#xFF0C;&#x81EA;&#x5B9A;&#x4E49;IP&#x5730;&#x5740;&#xFF09;
        GATEWAY&#xFF08;&#x6839;&#x636E;&#x81EA;&#x5DF1;&#x7684;&#x7F51;&#x6BB5;&#x586B;&#x5199;&#x5BF9;&#x5E94;&#x7684;&#x7F51;&#x5173;&#x5730;&#x5740;&#xFF09;

2&#x3001;&#x5173;&#x95ED;NetworkManager&#xFF0C;&#x5E76;&#x53D6;&#x6D88;&#x5F00;&#x673A;&#x81EA;&#x542F;
systemctl stop NetworkManager
systemctl disable NetworkManager

3&#x3001;&#x91CD;&#x542F;&#x7F51;&#x7EDC;&#x670D;&#x52A1;
systemctl restart network

配置免密登录

1&#x3001;&#x751F;&#x6210;&#x5BC6;&#x94A5;
ssh-keygen -t rsa

2&#x3001;&#x914D;&#x7F6E;&#x514D;&#x5BC6;&#x767B;&#x5F55;
ssh-copy-id master01
ssh-copy-id node1
ssh-copy-id nade2

3&#x3001;&#x6D4B;&#x8BD5;&#x514D;&#x5BC6;&#x767B;&#x5F55;
ssh node1

配置映射文件：/etc/hosts

192.168.137.150 master01
192.168.137.160 node1
192.168.137.170 node2

二、搭建Hadoop集群

1、上传安装包并解压

cd /usr/local/soft/
&#x89E3;&#x538B;&#xFF1A;
tar -zxvf

2、配置环境变量

vim /etc/propfile

&#x91CD;&#x65B0;&#x52A0;&#x8F7D;&#x73AF;&#x5883;&#x53D8;&#x91CF;
source /etc/profile

3、修改Hadoop配置文件

cd /usr/local/soft/hadoop-2.7.6/etc/hadoop

* 配置core-site.xml fs.defaultFS：默认文件系统的名称。其方案和权限决定文件系统实现的URI。uri的方案确定命名文件系统实现类的配置属性（fs.scheme.impl）。uri的权限用于确定文件系统的主机、端口等。 hadoop.tmp.dir：是 hadoop文件系统依赖的基本配置，很多配置路径都依赖它，它的默认位置是在 /tmp/{$user}下面，注意这是个临时目录！！！因此，它的持久化配置很重要的！如果选择默认，一旦因为断电等外在因素影响，/tmp/{$user}下的所有东西都会丢失。 fs.trash.interval：启用垃圾箱配置，dfs命令删除的文件不会立即从HDFS中删除。相反，HDFS将其移动到垃圾目录（每个用户在 /user/<username>/.Trash</username>下都有自己的垃圾目录）。只要文件保留在垃圾箱中，文件可以快速恢复。

 <property>
        <name>fs.defaultFS</name>
        <value>hdfs://master01:9000</value>
    </property>

    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/soft/hadoop-2.7.6/tmp</value>
    </property>

    <property>
        <name>fs.trash.interval</name>
        <value>1440</value>
    </property>

* 配置hdfs-site.xml dfs.replication：每个datanode上只能存放一个副本。我这里就2个datanode dfs.permissions：如果为”true”，则在HDFS中启用权限检查。如果为”false”，则关闭权限检查，但所有其他行为保持不变。从一个参数值切换到另一个参数值不会更改文件或目录的模式、所有者或组。

    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>

    <property>
        <name>dfs.permissions</name>
        <value>false</value>
    </property>

* 配置mapred-site.xml.template mapreduce.framework.name：用于执行MapReduce作业的运行时框架。 mapreduce.jobhistory.address：Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下，Hadoop历史服务器是没有启动的，我们可以通过mr- jobhistory-daemon.sh start historyserver*命令来启动Hadoop历史服务器。我们可以通过Hadoop jar的命令来实现我们的程序jar包的运行，关于运行的日志，我们一般都需要通过启动一个服务来进行查看，就是我们的JobHistoryServer，我们可以启动一个进程，专门用于查看我们的任务提交的日志。mapreduce.jobhistory.address和mapreduce.jobhistory.webapp.address默认的值分别是0.0.0.0:10020和0.0.0.0:19888

1&#x3001;&#x590D;&#x5236;&#xFF1A;
[root@master01 hadoop]# cp mapred-site.xml.template mapred-site.xml
2&#x3001;&#x4FEE;&#x6539;
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>

    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>master01:10020</value>
    </property>

    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>master01:19888</value>
    </property>

配置yarn-site.xml yarn.resourcemanager.hostname：指定yarn主节点 yarn.nodemanager.aux-services：NodeManager上运行的附属服务。需配置成 mapreduce_shuffle，才可运行MapReduce程序。默认值：”” yarn.log-aggregation-enable：yarn日志聚合功能开关 yarn.log-aggregation.retain-seconds：日志保留时限，默认7天

<property>
          <name>yarn.resourcemanager.hostname</name>
          <value>master01</value>
      </property>

      <property>
          <name>yarn.nodemanager.aux-services</name>
          <value>mapreduce_shuffle</value>
      </property>

      <property>
          <name>yarn.log-aggregation-enable</name>
          <value>true</value>
      </property>

      <property>
          <name>yarn.log-aggregation.retain-seconds</name>
          <value>604800</value>
      </property>

配置slaves 从节点的信息

node1
node2

4、分发Hadoop到node1、node2

cd /usr/local/soft/
scp -r hadoop-2.7.6/ node1:pwd
scp -r hadoop-2.7.6/ node2:pwd

5、格式化namenode（第一次启动的时候需要执行，以及每次修改核心配置文件后都需要）

在主节点下进行格式化

hdfs namenode -format

6、启动Hadoop集群

start-all.sh

7、查看master01、node1、node2上的进程

jps

NameNode：接受客户端的读/写服务,收集 DataNode 汇报的 Block 列表信息
DataNode：真实数据存储的地方（block）
SecondaryNameNode：做持久化的时候用到

进程 master01（主） node1（从） node2（从） NameNode √ SecondaryNameNode √ ResourceManager √ DataNode √ √ NodeManager √ √

8、访问HDFS的web界面

http://192.168.137.150:50070

9、访问YARN的web界面

http://192.168.137.150:8088

10、配置windows映射，让电脑可以下载hadoop上的文件

首先到这个目录c盘的这个目录下。c盘文件不允许修改，点击hosts的属性，安全，编辑，给user用户一个修改权限就可以修改了。

添加：192.168.137.150 master01

192.168.137.160 node1

192.168.137.170 node2

Original: https://www.cnblogs.com/bfy0221/p/16610427.html
Author: 伍点
Title: Hadoop集群搭建的详细过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/562072/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30