【Hadoop】Hadoop体系知识点梳理（目录）

原创

百木从森2022-07-11 12:09:56©著作权

文章标签 大数据 hadoop java 目录 mapreduce 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者百木从森的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop体系知识点梳理（目录）

核心点
第一章：Hadoop背景知识与起源
第二章：搭建Hadoop环境
第三章：HDFS体系架构
第四章：HDFS
第五章：MapReduce
第六章：Hbase
第七章：Hive
第八章：Pig
第九章：Sqoop
第十章：Zookeeper与HA
第十一章：HUE

作者：Be_melting

核心点

（1）明确大数据开发的原理、思想和架构
（2）需要自己动手搭建环境：

学习阶段：使用Apache版本
生产开发：CDH、HDP、阿里、华为等

（3）开发程序时使用的语言：

Hadoop：Java语言
Spark：Scala语言、Java语言
Flink：Scala语言、Java语言

第一章：Hadoop背景知识与起源

1、课程概述：目的：了解名词2、实验环境：RedHat Linux 7.4 64位       Apache版本        Java JDK          一共需要5台虚拟机：注意：我的机器和你的机器的IP地址可能不一样      bigdata111  192.168.124.111    bigdata112  192.168.124.112    bigdata113  192.168.124.113    bigdata114  192.168.124.114    bigdata115  192.168.124.115      （1）关闭防火墙      systemctl stop firewalld.service      systemctl disable firewalld.service       （2）设置主机名 vi /etc/hosts      192.168.124.111 bigdata111    （3）安装JDK      mkdir tools/      mkdir training/      tar -zxvf jdk-8u181-linux-x64.tar.gz -C ~/training/      vi ~/.bash_profile        JAVA_HOME=/root/training/jdk1.8.0_181        export JAVA_HOME        PATH=$JAVA_HOME/bin:$PATH        export PATH      source ~/.bash_profile      3、大数据中几个基本概念：  （*）什么是大数据？核心问题      举例：（1）商品推荐    （问题1）大量的订单如何存储？                              （问题2）大量的订单如何计算？                            （2）天气预报   （问题1）大量的天气数据如何存储？                            （问题2）大量的天气数据如何计算？            核心问题：（1）数据存储：分布式文件系统 HDFS                （2）数据计算：分布式计算模型MapReduce、Spark RDD、Flink分区              （A）离线计算、批处理                  MapReduce、Spark Core、Flink DataSet                            （B）实时计算、流处理                  Storm、Spark Streaming、Flink DataStream          （*）数据仓库：本质上，就是一个数据库（Oracle、MySQL）；一般，只做查询select           Hadoop、Spark、Flink、NoSQL都可以看成是数据仓库的一种实现方式。                 数据仓库的搭建过程（画图）           数据仓库又是一种OLAP的应用             （*）OLTP、OLAP    OLTP：online transaction processing 联机事务处理：insert update delete commit rollback    OLAP：online analytic processing 联机分析处理：select      4、（重点）Google的三篇论文：三驾马车-----> 原理  （1）GFS：Google File System ---->   HDFS：Hadoop Distributed File System      画图：分布式文件系统的基本原理          HDFS：主节点：NameNode        从节点：DataNode    （2）MapReduce分布式计算模型 ---->  问题来源：PageRank（网页排序）问题      Page 网页      Rank 分数            举一个更简单一点的例子，来解释MapReduce计算模型（MapReduce编程模型）      Demo：wordcount      位置：$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar      命令：hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0223        Yarn：主节点：ResourceManager        从节点：NodeManager    （3）BigTable大表            -----> NoSQL数据库：HBase      回顾：关系型数据库，需要遵循范式的要求。范式的优点是：减少数据冗余                                               范式的缺点：影响性能        关系型数据库是行式数据库，适合insert update select        大表思想：把所有的数据存入一张表中。不遵循范式要求。          通过牺牲空间，提高性能。                HBase是列式数据库，适合做select                对比：Oracle的表结构和HBase的表结构

第二章：搭建Hadoop环境

1、Hadoop的目录结构2、Hadoop的本地模式3、Hadoop的伪分布模式4、免密码登录的原理和配置5、Hadoop的全分布模式

第三章：HDFS体系架构

1、HDFS分布式文件系统  （1）NameNode：名称节点  （2）DataNode：数据节点  （3）SecondaryNameNode：第二名称节点2、Yarn：资源任务调度的容器（平台），执行MapReduce程序  （1）ResourceManager  （2）NodeManager  Yarn如何进行资源的分配：三种分配的方式3、HBase的体系架构和表结构

第四章：HDFS

1、操作HDFS：Web Console、命令行、Java API2、HDFS的原理解析（画图）  （1）数据上传的过程和原理  （2）数据下载的过程和原理  3、HDFS的高级功能  （1）回收站  （2）快照：Snapshot，是一种备份  （3）配额：Quota，名称配额、空间配额  （4）安全模式：safemode  （5）权限管理：类似Linux  4、HDFS的集群简介：联盟、HA5、底层原理的实现  （1）代理对象Proxy  （2）RPC：remote procedure call 协议

第五章：MapReduce

1、经典案例：单词计数WordCount，实现这个过程2、功能特性  （1）序列化：Writable接口  （2）排序  （3）分区：非常重要，画图来解释  （4）Combiner合并：优化的方式  （5）MapReduce的核心：Shuffle洗牌  3、MapReduce的编程案例  （1）数据去重  （2）多表查询：类似SQL语句，补充讲一下数据库中的多表查询  （3）实现倒排索引：原理会在HDFS中讲  （4）使用MRUnit进行MapReduce的单元测试

第六章：Hbase

1、表结构和体系架构2、搭建HBase的环境  （1）本地模式  （2）伪分布模式  （3）全分布模式  （4）HA  3、操作HBase：Web Console、命令行、Java API4、HBase的过滤器：类似where条件5、HBase中的MapReduce

第七章：Hive

都是Hadoop中的数据分析引擎，支持SQL语句

第八章：Pig

都是Hadoop中的数据分析引擎，支持PigLatin

第九章：Sqoop

实现数据采集，采集的是关系型数据库，基于JDBC

第十章：Zookeeper与HA

1、什么是ZooKeeper？功能特性、环境搭建2、基于ZooKeeper实现Hadoop的HA：解决大数据主从架构的单点故障问题3、HDFS的联盟：Federation

第十一章：HUE

基于Web的管理工具

赞
收藏
评论
*举报

上一篇：【大数据前置基础】大数据聚焦层面，数据仓库，OLAP和OLTP

下一篇：【Hadoop】Hadoop的目录结构和脚本与环境搭建（本地模式、伪分布模式和全分布模式）

Original: https://blog.51cto.com/u_15713987/5460312
Author: 百木从森
Title: 【Hadoop】Hadoop体系知识点梳理（目录）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/508275/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31