Partition和ReduceTask的关系

2023年6月3日上午3:33 • 大数据 • 阅读 82

先看源码：

结论：

1.ReduceTask的数量由job提交时的参数决定：job.setNumReduceTasks()。设置为多少，就开启多少个ReduceTask，默认为1。设置为0时，则表示没有Reduce阶段，只有Map阶段。生成文件数量由ReduceTask数量决定。

2.Partitioner的数量由ReduceTask的数量决定， Partitioner数量 =ReduceTask数量。

其中： 1）若ReduceTask = 1 ，无论用户有没有自定义分区规则，都只有一个分区。

2）若设置ReduceTask >1,则如果用户没有自定义Partitioner，则按照默认的HashPartitioner对数据进行划分。

如果用户自定义了Partitioner，则其中的分区的个数不能超过Partittion的数量，否则会Exception。

Original: https://www.cnblogs.com/ji-lei/p/16338019.html
Author: Ji_Lei
Title: Partition和ReduceTask的关系

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/562847/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Centos 安装 docker

一、docker安装 centos安装docker sudo yum update sudo yum install -y yum-ut…

大数据 2023年5月27日
0077
iproute2路由配置（ip rule、ip route、traceroute）

一、Iproute2简介二、iproute2常用命令三、路由（ip rule、ip route） 1）路由策略（ip rule） 1、添加规则 2、示例 2）路由表（使用 i…

大数据 2023年5月27日
0094
matplotlib 绘制等高图

下载Python3.8.10，（最新版本一堆坑）命令终端运行(需要网络） py -m pip install –upgrade pip py -m pip insta…

大数据 2023年6月3日
0080
为什么新的5G标准将为技术栈带来更低的TCO

新5G标准和边缘计算对低延迟的要求，给那些试图将一堆不同组件组装成一个不会出现故障且仍具有低延迟的高成本效益应用程序公司带来了严峻的挑战。事实上，这个问题非常严重，以至于需要重新考…

大数据 2023年6月3日
0083
datahub添加mysql/hive数据源

大数据 2023年11月13日
0062
安卓 Content Provider + SQLite 实验

实验十二 SQL + content Provider实验一、实验目的熟悉Content Provider的使用；二、实验内容 1、实现ContentProvider和Con…

大数据 2023年11月10日
0057
Linux Systemd服务(2021.07.09)

大数据 2023年6月3日
0069
Python笔记之paramiko模块安装和使用示例

镜像下载、域名解析、时间同步请点击阿里云开源镜像站一、paramiko模块简介 paramiko是一个用于做远程控制的模块，使用该模块可以对远程服务器进行命令或文件操作，基于li…

大数据 2023年5月27日
00132
[C/C++]static关键字用法总结[转载]

最近经历了一些笔试和面试，经常会被问到static关键字的作用，感觉虽然知道一些，但每次回答的都不够满意，今天在网上查了一下，总结总结，恩，以备后用！ static关键字是C, C…

大数据 2023年6月3日
0066
数据资产为王，如何解析企业数字化转型与数据资产管理的关系？

原文链接：数据资产为王，解析企业数字化转型与数据资产管理的关系视频回顾：点击这里课件获取：点击这里一、数据资产背景介绍随着企业数字化转型的深入，数据…

大数据 2023年5月26日
0079
SQLite的基本使用

一、Windows安装安装绿色版本，步骤如下： 1、访问https://www.sqlite.org/download.html ，从 Windows 区下载预编译的二进制文件。…

大数据 2023年11月10日
0051
linux下端口占用

1， netstat -tunlp|grep 1235 2，kill -9 18520 Original: https://www.cnblogs.com/hbuuid/p/137…

大数据 2023年6月3日
00108
hivesql窗口函数

大数据 2023年11月14日
0043
安卓复制到剪切板,以及获取剪切板内容

安卓复制到剪切板,以及获取剪切板内容原创痛而不觉2022-06-20 11:08:50博主文章分类：安卓相关 ©著作权文章标签剪切板 android 剪贴板文章分类 Ha…

大数据 2023年5月26日
0084
17道Redis 面试题

大数据 2023年11月14日
0039
从零开始在centos搭建博客（二）

本篇为备份篇。因为装的东西不多，所以需要备份的只有mysql和wordpress的文件夹。备份mysql mysql备份命令使用mysqldump命令，格式如下：这是格式 …

大数据 2023年5月27日
0061

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球