Hadoop， Hadoop涉及到的一些常见概念（分布式与集群、HDFS、MapReduce等），Hadoop怎么用？

2023年5月26日上午2:01 • 大数据 • 阅读 69

Hadoop， Hadoop涉及到的一些常见概念（分布式与集群、HDFS、MapReduce等），Hadoop怎么用？

一、Hadoop是什么，有什么用

1，Hadoop是什么？

■ Hadoop是做什么的？目前主流的大数据处理分布式架构之一，Hadoop用于处理大规模数据。【分布式系统架构，用于处理大数据】

■ 使用Hadoop构建的应用程序可在分布于商用计算机群集（低成本）的大型数据集上运行。【低成本】。

HDFS 为海量的数据提供了存储，而MapReduce则为海量的数据提供了计算。【利用集群进行高速运算和存储】

■ 用户可以在不了解分布式底层细节的情况下，开发分布式程序。

2 ，Hadoop 作用： 体现在Hadoop对大数据处理的意义； 【高效计算和存储】

● 大数据存储：分布式存储

● 日志处理：擅长日志分析

● ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库

● 机器学习: 比如Apache Mahout项目

● 搜索引擎:Hadoop + lucene实现

● 数据挖掘：目前比较流行的广告推荐，个性化广告推荐

Hadoop是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。

■ Hadoop+HBase建立NoSQL分布式数据库应用

■ Flume+Hadoop+Hive建立离线日志分析系统

■ Flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析

3 ，Hadoop 优点：

■ 可扩展性强，Hadoop可以在一组计算机集群当中分配任务完成数据计算，这些 集群可以更方便地扩展到数千节点当中。

■ 高效性，Hadoop的 分布式文件系统，能够保证高效的数据交互，通过并行处理加快数据处理速度。

■ 可靠性， Hadoop的分布式文件系统将数据分块储存，每个数据块在集群节点上依据一定的策略进行冗余储存，

确保能够针对失败的节点重新分布处理，从而保证了数据的可靠性。

二、Hadoop涉及到的一些常见概念（分布式、集群、HDFS、MapReduce等）

✿ 核心架构

■ Hadoop 的底层是Hadoop Distributed File System（HDFS），HDFS存储了 Hadoop 集群中所有存储节点上的文件。

HDFS的上一层是MapReduce引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。

■ 通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，

以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

✿ Hadoop 中涉及到的常见概念：

（1）分布式与集群：

■ 集群是个物理形态，分布式是个工作方式。

只要是一堆机器，就可以叫集群，一个程序或系统，将任务分配给不同的机器上，不同机器一起合作完成任务的关系，即分布式。

集群：同一个业务部署在多台机器上，提高系统可用性
分布式：不同的业务模块部署在不同的服务器上或者同一个业务模块分拆多个子业务，部署在不同的服务器上，解决高并发的问题

■ 集群（处理机的静态状态 ）强调的是个体与群体之间的关系，是集合在一起的集群关系，也就是处理机不是单一体，是一个相似的个体组成的群体。

分布式（处理机的动态状态 ）强调的是对业务在源头上的一种处理方式—分配处理。将任务分发给多个处理机，而非单一处理机进行处理。强调请求和处理直接的分发状况。

（2）HDFS（Distributed File System）：

HDFS是一个分布式文件系统：引入存放文件元数据信息的服务器Namenode和实际存放数据的服务器Datanode，对数据进行分布式储存和读取。

■ HDFS采用了主从（Master/Slave）结构模型， 一个HDFS集群是由一个NameNode和若干个DataNode组成的。

其中NameNode（NameNode 可以控制所有文件操作 ）作为主服务器，管理文件系统的命名空间和客户端对文件的访问操作；

集群中的DataNode管理存储的数据。（hadoop2.x版本，可以存在两个NameNode，解决了单节点故障问题）。

（3）MapReduce：

MapReduce是一个计算框架：MapReduce的核心思想是把计算任务分配给集群内的服务器里执行。

通过对计算任务的拆分（Map计算/Reduce计算）再根据任务调度器（JobTracker）对任务进行分布式计算。

■ HDFS 和 MapReduce：

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的，有冗余备份的，可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎，按照MapReduce的规则编写Map计算/Reduce计算的程序，可以完成计算任务。

三、Hadoop怎么用？

3.1 、Hadoop集群的搭建

无论是在windows上 装几台虚拟机（集群）玩Hadoop，还是 真实的服务器来玩，

简单讲就是把 Hadoop的安装包放在每一台服务器上，改改配置，启动就完成了Hadoop集群的搭建。

3.2 、上传文件到Hadoop集群

Hadoop集群搭建好以后，可以通过web页面查看集群的情况，还可以通过Hadoop命令来上传文件到hdfs集群，

通过Hadoop命令在hdfs集群上建立目录，通过Hadoop命令删除集群上的文件等等。

3.3 、编写map/reduce程序

通过集成开发工具（例如eclipse）导入Hadoop相关的jar包，编写map/reduce程序，将程序打成jar包扔在集群上执行，运行后出计算结果。

参考文章：

《hadoop 之 hadoop用途方向》

作者：一乐乐

Original: https://blog.51cto.com/u_15657677/5358316
Author: 一乐yile
Title: Hadoop， Hadoop涉及到的一些常见概念（分布式与集群、HDFS、MapReduce等），Hadoop怎么用？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/517596/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Review】自然语言处理发展史中的里程碑总结

2001 Neural language models 语言建模是指在给定前面若干个单词的情况下，预测文本下一个出现的单词。这是一个最简单的自然语言处理任务，但同时有着最具体的应用…

大数据 2023年5月28日
0061
R语言进行主成分分析（PCA）、使用prcomp函数进行主成分分析：碎石图可视化（scree plot）、R通过条形图（bar plot）来可视化主成分分析的碎石图（scree plot）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

大数据 2023年5月28日
0066
uniapp之使用sqlite模块

h5+ sqllite 教程地址 https://www.html5plus.org/doc/zh_cn/sqlite.html function openSqllite() { …

大数据 2023年11月11日
0049
[原]Docker-issue(1) image name 显示为 <none>

问题：今天发现重新上传新的image的时候覆盖了原来的镜像后，REPOSITORY 就变为了解决办法：使用tag重新命名image 问题解决： Original: https:…

大数据 2023年5月29日
0077
使用pytest-xdist实现分布式APP自动化测试：基于SSH

前言 pytest-xdist是一款分布式测试插件，它有两种方式实现master和worker的远程通讯，一种是SSH，另一种是socket。本文将介绍如何使用SSH实现用例同步、…

大数据 2023年5月25日
0075
「微服务架构」分散您的微服务组织

适应性 – 快速，轻松地进行变革的能力 – 已成为现代企业的首要目标，并迫使技术团队构建更容易，成本更低的平台。在这样的环境中工作，这些团队越来越多地被软件…

大数据 2023年5月26日
0074
Spark快速上手(5)Spark核心编程-RDD转换算子案例实操

RDD转换算子案例实操数据准备 agent.log：时间戳，省份，城市，用户，广告【中间字段使用空格分隔】数据集，提取码：Unsk 1516609143867 6 7 64 1…

大数据 2023年6月3日
0071
2021/3/21

2021-03-21 原创成都阿信2022-07-13 20:59:28©著作权文章标签 java 文章分类 Hadoop 大数据 ©著作权归作者所有：来自51CTO博客作者成…

大数据 2023年5月24日
0076
Android开发 Room数据库框架

Room框架Room数据库是基于SQLite数据库的一种框架，由谷歌推出，主要有三个部分组成：在使用之前要添加它的支持包： def room_version = "2….

大数据 2023年11月12日
0031
校园如何管理？且看可视化大屏

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

大数据 2023年6月2日
0074
Redis从部署群集到ASK路由

大数据 2023年11月14日
0029
kafka controller 处理事件

KafkaController 需要处理各种各样的事件，事件统一投递到队列里面，由一个线程进行消费。 // kafka.controller.ControllerEventMana…

大数据 2023年5月28日
0063
hive建表语句增加字段、分区基础操作

hive建表内部分区表外部分区表表结构复制： hive表删除 hive表重命名表修改操作增加分区修改分区删除分区新增表字段 hive建表 IF NOT EXISTS…

大数据 2023年11月13日
0057
一文看懂MySQL的异步复制、全同步复制与半同步复制

大数据 2023年11月15日
0034
Android-Service知识详解

目录一、结构二、简介三、生命周期 * 3.1生命周期常用方法 3.2常见的生命周期使用四、Service分类 * 4.1具体分类 4.2详细介绍 4.3service和th…

大数据 2023年11月10日
0032
Every Document Owns Its Structure: Inductive Text Classification via GNN (TextING)

文章目录 * – 摘要 – 引言 – + 文本分类方法 + TextING构建思路和创新点 – 方法 – + 构图 + …

大数据 2023年5月28日
0081

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hadoop， Hadoop涉及到的一些常见概念（分布式与集群、HDFS、MapReduce等），Hadoop怎么用？

Hadoop， Hadoop涉及到的一些常见概念（分布式与集群、HDFS、MapReduce等），Hadoop怎么用？

✿ 核心架构

大家都在看