【Hadoop】Hadoop体系知识点梳理(目录)

【Hadoop】Hadoop体系知识点梳理(目录)

原创

百木从森©著作权

文章标签 大数据 hadoop java 目录 mapreduce 文章分类 Hadoop 大数据

©著作权归作者所有:来自51CTO博客作者百木从森的原创作品,请联系作者获取转载授权,否则将追究法律责任

Hadoop体系知识点梳理(目录)

作者:Be_melting

核心点

(1)明确大数据开发的原理、思想和架构
(2)需要自己动手搭建环境:

  • 学习阶段:使用Apache版本
  • 生产开发:CDH、HDP、阿里、华为等

(3)开发程序时使用的语言:

  • Hadoop:Java语言
  • Spark:Scala语言、Java语言
  • Flink:Scala语言、Java语言

第一章:Hadoop背景知识与起源

1、课程概述:目的:了解名词2、实验环境:RedHat Linux 7.4 64位       Apache版本        Java JDK          一共需要5台虚拟机:注意:我的机器和你的机器的IP地址可能不一样      bigdata111  192.168.124.111    bigdata112  192.168.124.112    bigdata113  192.168.124.113    bigdata114  192.168.124.114    bigdata115  192.168.124.115      (1)关闭防火墙      systemctl stop firewalld.service      systemctl disable firewalld.service       (2)设置主机名 vi /etc/hosts      192.168.124.111 bigdata111    (3)安装JDK      mkdir tools/      mkdir training/      tar -zxvf jdk-8u181-linux-x64.tar.gz -C ~/training/      vi ~/.bash_profile        JAVA_HOME=/root/training/jdk1.8.0_181        export JAVA_HOME        PATH=$JAVA_HOME/bin:$PATH        export PATH      source ~/.bash_profile      3、大数据中几个基本概念:  (*)什么是大数据?核心问题      举例:(1)商品推荐    (问题1)大量的订单如何存储?                              (问题2)大量的订单如何计算?                            (2)天气预报   (问题1)大量的天气数据如何存储?                            (问题2)大量的天气数据如何计算?            核心问题:(1)数据存储:分布式文件系统 HDFS                (2)数据计算:分布式计算模型MapReduce、Spark RDD、Flink分区              (A)离线计算、批处理                  MapReduce、Spark Core、Flink DataSet                            (B)实时计算、流处理                  Storm、Spark Streaming、Flink DataStream          (*)数据仓库:本质上,就是一个数据库(Oracle、MySQL);一般,只做查询select           Hadoop、Spark、Flink、NoSQL都可以看成是数据仓库的一种实现方式。                 数据仓库的搭建过程(画图)           数据仓库又是一种OLAP的应用             (*)OLTP、OLAP    OLTP:online transaction processing 联机事务处理:insert update delete commit rollback    OLAP:online analytic processing 联机分析处理:select      4、(重点)Google的三篇论文:三驾马车-----> 原理  (1)GFS:Google File System ---->   HDFS:Hadoop Distributed File System      画图:分布式文件系统的基本原理          HDFS:主节点:NameNode        从节点:DataNode    (2)MapReduce分布式计算模型 ---->  问题来源:PageRank(网页排序)问题      Page 网页      Rank 分数            举一个更简单一点的例子,来解释MapReduce计算模型(MapReduce编程模型)      Demo:wordcount      位置:$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar      命令:hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input/data.txt /output/0223        Yarn:主节点:ResourceManager        从节点:NodeManager    (3)BigTable大表            -----> NoSQL数据库:HBase      回顾:关系型数据库,需要遵循范式的要求。范式的优点是:减少数据冗余                                               范式的缺点:影响性能        关系型数据库是行式数据库,适合insert update select        大表思想:把所有的数据存入一张表中。不遵循范式要求。          通过牺牲空间,提高性能。                HBase是列式数据库,适合做select                对比:Oracle的表结构和HBase的表结构

第二章:搭建Hadoop环境

1、Hadoop的目录结构2、Hadoop的本地模式3、Hadoop的伪分布模式4、免密码登录的原理和配置5、Hadoop的全分布模式

第三章:HDFS体系架构

1、HDFS分布式文件系统  (1)NameNode:名称节点  (2)DataNode:数据节点  (3)SecondaryNameNode:第二名称节点2、Yarn:资源任务调度的容器(平台),执行MapReduce程序  (1)ResourceManager  (2)NodeManager  Yarn如何进行资源的分配:三种分配的方式3、HBase的体系架构和表结构

第四章:HDFS

1、操作HDFS:Web Console、命令行、Java API2、HDFS的原理解析(画图)  (1)数据上传的过程和原理  (2)数据下载的过程和原理  3、HDFS的高级功能  (1)回收站  (2)快照:Snapshot,是一种备份  (3)配额:Quota,名称配额、空间配额  (4)安全模式:safemode  (5)权限管理:类似Linux  4、HDFS的集群简介:联盟、HA5、底层原理的实现  (1)代理对象Proxy  (2)RPC:remote procedure call 协议

第五章:MapReduce

1、经典案例:单词计数WordCount,实现这个过程2、功能特性  (1)序列化:Writable接口  (2)排序  (3)分区:非常重要,画图来解释  (4)Combiner合并:优化的方式  (5)MapReduce的核心:Shuffle洗牌  3、MapReduce的编程案例  (1)数据去重  (2)多表查询:类似SQL语句,补充讲一下数据库中的多表查询  (3)实现倒排索引:原理会在HDFS中讲  (4)使用MRUnit进行MapReduce的单元测试

第六章:Hbase

1、表结构和体系架构2、搭建HBase的环境  (1)本地模式  (2)伪分布模式  (3)全分布模式  (4)HA  3、操作HBase:Web Console、命令行、Java API4、HBase的过滤器:类似where条件5、HBase中的MapReduce

第七章:Hive

都是Hadoop中的数据分析引擎,支持SQL语句

第八章:Pig

都是Hadoop中的数据分析引擎,支持PigLatin

第九章:Sqoop

实现数据采集,采集的是关系型数据库,基于JDBC

第十章:Zookeeper与HA

1、什么是ZooKeeper?功能特性、环境搭建2、基于ZooKeeper实现Hadoop的HA:解决大数据主从架构的单点故障问题3、HDFS的联盟:Federation

第十一章:HUE

基于Web的管理工具

  • 收藏
  • 评论
  • *举报

上一篇:【大数据前置基础】大数据聚焦层面,数据仓库,OLAP和OLTP

下一篇:【Hadoop】Hadoop的目录结构和脚本与环境搭建(本地模式、伪分布模式和全分布模式)

Original: https://blog.51cto.com/u_15713987/5460312
Author: 百木从森
Title: 【Hadoop】Hadoop体系知识点梳理(目录)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/508275/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球