(记录自用,参考价值低)分布式大数据处理Hadoop学习与探索2:hadoop环境搭建

一、实验环境

  1. 使用vmware创建了3个虚拟机。
  2. 具体配置:
    版本CentOS 7.5 内存4GB 4核心(2 * 2)磁盘100GB 最小化安装 名称:superPC01 ip:192.168.10.135
    版本CentOS 7.5 内存3GB 2核心(1 * 2)磁盘100GB 最小化安装 名称:superPC02 ip:192.168.10.136
    版本CentOS 7.5 内存3GB 2核心(1 * 2)磁盘100GB 最小化安装 名称:superPC03 ip:192.168.10.137
  3. 安装ifconfig命令相关的组件,方便查看网络ip。
  4. 配置连网、静态ip。

二、参考博客与实验内容

  1. 很全面的搭建过程博客:https://blog.csdn.net/tang5615/article/details/120382513
  2. 实验内容:搭建、测试hadoop环境

三、安装前准备

  1. 三个虚拟机新建hadoop用户(大数据相关内容使用该用户完成),配置ip地址映射,配置ssh互信
  2. 弄个xshell远程连接,操作更方便

四、Java、Hadoop安装

节点分配:
下载、解压、配置环境变量:
  • 版本:hadoop-3.1.3、jdk-1.8
  • 安装目录(三个节点相同):/opt/module/hadoop-3.1.3/ /opt/module/java-1.8/
  • 推荐安装操作顺序:1.压缩文件上传到super01 2.解压到/opt/module/目录 3.直接使用scp将module目录拷贝到另外两个虚拟机
  • scp拷贝
scp -r /opt/module/ hadoop@super02:/opt/
scp -r /opt/module/ hadoop@super03:/opt/
  • 环境变量配置
1. /etc/profile文件尾部添加

export JAVA_HOME=/opt/module/jdk-1.8
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

export HADOOP_HOME=/opt/module/hadoop-3.1.3/
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

2. 刷新环境变量
source /etc/profile

五、Hadoop配置

配置文件

hadoop-env.sh:配置java路径
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves

基本配置

根据 二、参考博客 的博客中配置即可。时间有限,之后再补充。

问题记录
  1. 配置ssh互信的问题:
    博客中使用root用户搭建hadoop集群,建议专门新建一个hadoop用户来搭建,所以配置ssh互信时注意配置hadoop用户(即使用hadoop用户使用配置互信的命令就可以了)
    另外,super01也必须要使用命令 ssh-copy-id super01,其他节点也一样
    否则报错:Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password)
  2. 格式化namenode的问题
    注意先将hadoop文件传送到另外两个节点,再进行namenode格式化。这里有问题,可以重新格式化namenode。
    重新格式化namenode之前注意:所有节点的{hadoop_home}/tmp和{hadoop_home}/logs目录要清空。
    否则会导致有些datanode启动不了。
    启动有问题,一定要查日志,日志目录:{hadoop_home}/logs。
  3. 内存
    开3虚拟机+浏览器,内存到95左右了,电脑比较卡。
    虚拟机实际内存使用 主节点(super01):1.4GB/4GB 副节点(super02):800MB/3GB 副节点(super03):600MB/3GB。
    后续再调整下。
  4. web页面显示
    hdfs页面的总览显示3个datanode节点,但是datanode页面中只显示一个,暂时未解决。

五、小结

  1. 由于自己的粗心导致的错误还是比较多的,但总算搭建起来了,问题也记录了一下。
  2. 本来计划多多测试一些配置相关,但几个基础配置应该都是很有必要性的配置,修改空间不大。
  3. 接下来计划安装一下mysql、hive,并开发一些离线任务。

Original: https://www.cnblogs.com/z2284074843/p/16575785.html
Author: 菜鸟上路zz
Title: (记录自用,参考价值低)分布式大数据处理Hadoop学习与探索2:hadoop环境搭建

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/562123/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球