Hadoop之MapReduce03【wc案例流程分析】

2023年5月25日下午11:58 • 大数据 • 阅读 66

上篇文件介绍了自定义wordcount案例的实现，本文来介绍下具体的执行流程

流程图

流程说明

1.当客户端提交submit的时候客户端程序会根据我们输入的/wordcount/input地址找到需要统计的数据，根据我们的配置信息得到任务规划文件
2.将任务规划文件上传到hdfs指定的位置。

hadoop fs -ls /tmp/hadoop-yarn/staging/root/.staging/job_1554281786018_0002

3.客户端将任务提交到yarn中，ResourceManager根据规划文件中指定的切片规则通过mr appmaster在nodeManager上启动对应的MapperTask。
4.每个MapperTask根据指定的切片任务去加载数据，通过InputFormat的实现一行一行的读取数据，每读取一行会调用我们自定义的map方法处理这行的信息
5.map阶段输出的数据会被outputCollector采集。
6.outputCollector中的数据通过partitionner对数据做分区操作。将不同的数据分配到不同的分区中。
7.Reduce阶段根据配置会创建对应的ReduceTask来汇总数据(分组排序)。
8.将key相同的数据加载到自定义的reduce方法中，通过OutputFormat输出汇总结果。

本文仅仅对流程做大概分析，并为涉及到yarn工作调度的细节。后面会详细介绍~

Original: https://blog.51cto.com/u_15494758/5433346
Author: 波波烤鸭
Title: Hadoop之MapReduce03【wc案例流程分析】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/516994/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Linux部署rocketmq和可视化客户端

镜像下载、域名解析、时间同步请点击阿里云开源镜像站部署rocketmq和可视化客户端一、服务器资源服务名称： Linux服务器 IP：[请查看资源分配文档] 操作系统： C…

大数据 2023年5月27日
0057
安卓APP源码和报告——音乐播放器

课程设计报告院系：专业：题目：科目：学生：指导教师：完成时间：目录引言1 1.1 目的1 1.2 背景1 需求分析1 系统设计1 3.1总体设计1 3….

大数据 2023年11月11日
0041
hive中常用的日期处理函数

哈喽，大家好，最近工作中遇到很多日期处理问题，比较头疼，今天给大家整理一下hive的比较常用的日期处理函数，欢迎大家的点赞和转发。多谢大家。 date_format 释义：格式化日…

大数据 2023年11月13日
0040
docker windows 相关操作

从文件加载SqlServer 文件存在D:\Dock一键安装\release目录 D:\Dock一键安装\release> ls 1、加载sqlserver.tar：doc…

大数据 2023年5月28日
0070
Kafka 3.0新特性

Kafka是一个分布表示实时数据流平台，可独立部署在单台服务器上，也可部署在多台服务器上构成集群。它提供了发布与订阅的功能，用户可以发送数据到Kafka集群中，也可以从Kafka集…

大数据 2023年5月28日
0082
Oracle Linux 9 发布 — Oracle 提供支持 RHEL 兼容发行版

请访问原文链接：https://sysin.org/blog/oracle-linux-9/，查看最新版。原创作品，转载请保留出处。作者主页：www.sysin.org Orac…

大数据 2023年6月3日
00125
SQLite学习之路⑧ DBMS介绍（2021SC@SDUSC）

几乎所有DBMSs都使用锁定机制进行并发控制，并使用日志保存恢复信息。在事务修改数据库项之前，DBMS写入一些日志记录在日志中包含恢复信息(例如，事物的旧值和新值)。DBMS确保日…

大数据 2023年11月11日
0035
写最好的最新稳定版Redis7（redis-7.0.5）在云服务器Centos7安装部署教程（参考官方文档）

大数据 2023年11月14日
0037
SpringMVC学习笔记

javaSE -> JavaWeb -> SSM（SpringMVC、Spring、MyBatis） -> JavaEE -> SpringBoot、Spr…

大数据 2023年6月3日
0052
Linux小知识—CMake的使用

背景介绍前面在介绍SQlite3的使用时，用了CMake的方式，简单编译了源码，其中的CMakeLists.txt有如下内容 cmake_minimum_required (VE…

大数据 2023年11月12日
0044
python sqlite3 如何得到select 语句返回的记录集的行数？

官方文档有cursor.rowcount ，但通常返回值是-1。查询相关资料，得到答案如下：没有可以直接得到行数的函数。sqlite事先不知道行数，遍历时才逐行返回。&#821…

大数据 2023年11月12日
0032
mybaties连接sqlite，并读取blob类型数据时，报 java.sql.SQLException: not implemented by SQLite JDBC driver错误

由于某些原因，不能共开公司代码，这里是自用代码片段场景：具体需求，要求像springboot连接mysql或者pgsql数据库一样，在application配置文件中配置sqlit…

大数据 2023年11月12日
0037
关于文本对抗攻击和防御（TAAD）必读论文的研读和理解（一）

关于文本对抗的工具包的两篇经典论文，在认真阅读后谈谈自己的浅薄理解，尽量用通俗的语言解释其中含义： 1. OpenAttack: An Open-source Textual Ad…

大数据 2023年5月28日
0072
本科-人工智能模拟卷

人工智能模拟卷一、选择题 1 、 1997 年 5 月，著名的”人机大战”，最终计算机以 3.5 比 2.5 的总比分将世界国际象棋棋王卡斯帕罗夫击败，这…

大数据 2023年5月25日
0060
Kubernetes (k8s 1.23) 安装与卸载

镜像下载、域名解析、时间同步请点击阿里云开源镜像站请注意k8s在1.24版本不支持docker容器，本文使用kubeadm进行搭建 1.查看系统版本信息以及修改配置信息 1.1 …

大数据 2023年5月27日
0056
Java对结果集List＜Object＞进行模糊查询和Page分页

大数据 2023年11月15日
0031

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hadoop之MapReduce03【wc案例流程分析】

流程图

流程说明

大家都在看