# 【MapReduce】分析每个部门工资总额的数据处理流程并开发程序

## 1 分析每个部门工资总额的数据处理流程

Employee表中每一列的含义为：员工编号、员工姓名、员工职位、员工老板号、员工入职日期、员工月薪、员工奖金、员工部门号。

[En]

The meaning of each column of the employee table is: employee number, employee name, employee position, employee boss number, employee entry date, employee monthly salary, employee bonus and employee department number.

[En]

The meaning of each column in the department table is: the department number, the department name and the city where the department is located

dept.csv10,ACCOUNTING,NEW YORK20,RESEARCH,DALLAS30,SALES,CHICAGO40,OPERATIONS,BOSTON# emp.csv7369,SMITH,CLERK,7902,1980/12/17,800,0,207499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,307521,WARD,SALESMAN,7698,1981/2/22,1250,500,307566,JONES,MANAGER,7839,1981/4/2,2975,0,207654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,307698,BLAKE,MANAGER,7839,1981/5/1,2850,0,307782,CLARK,MANAGER,7839,1981/6/9,2450,0,107788,SCOTT,ANALYST,7566,1987/4/19,3000,0,207839,KING,PRESIDENT,-1,1981/11/17,5000,0,107844,TURNER,SALESMAN,7698,1981/9/8,1500,0,307876,ADAMS,CLERK,7788,1987/5/23,1100,0,207900,JAMES,CLERK,7698,1981/12/3,950,0,307902,FORD,ANALYST,7566,1981/12/3,3000,0,207934,MILLER,CLERK,7782,1982/1/23,1300,0,10


## 2.3 开发Reduce程序

Reducer程序的设计基本上和前面的Mapper程序设计一致，首先指定数据类型，然后参数为了方便记忆操作改成k3和v3，最后就是对v3进行求和，最后输出k4和v4，具体的代码如下，至此整个Reducer程序就设计完成

## 2.4 执行主程序

[En]

The last one is the design of the main program. the humorous version summarized at the end of the last blog can be used directly. You only need to modify the contents of the three boxes. In the first box, change the class name of the main program to the current class name. The last two boxes modify the data type and package the program after verification.

[En]

The final step is to verify the results in the final generated file, and the output results are as expected.

[En]

At this point, the data processing flow of the total payroll of each department is analyzed and the development program is sorted out, and the ✿✿ flowers (°▽ °) salary ✿ is finished.

Original: https://blog.51cto.com/u_15713987/5464327
Author: 百木从森
Title: 【MapReduce】分析每个部门工资总额的数据处理流程并开发程序

(0)

### 大家都在看

• #### Docker安装redis(保姆级教程&图文并茂)

大数据 2023年11月15日
0115
• #### docker导出和导入自己生成的镜像

1、将镜像导出到本地 <span class="hljs-attr">docker <span class="hljs-string…

大数据 2023年5月29日
0157
• #### 大数据ClickHouse进阶（十三）：ClickHouse的GROUP BY 子句

大数据 2023年11月15日
0120
• #### 操作系统与Linux

镜像下载、域名解析、时间同步请点击阿里云开源镜像站 一、操作系统 OS（Operating System）既操作系统，是一个包含通用目的或者功能的软件程序，这些通用目的包含了以下几…

大数据 2023年5月27日
0147
• #### 提交Spark作业遇到的NoSuchMethodError问题

问题：提交spark任务，hive写ck，部分executor报错java.lang.NoSuchMethodError: org.apache.http.impl.conn.Po…

大数据 2023年11月13日
0107
• #### Hive+Spark离线数仓工业项目实战–数仓设计及数据采集（1）

数仓设计及数据采集 数据仓库设计 建模：维度建模：【事实表、维度表】 分层：ODS、DW【DWD、DWM、DWS】、APP ==掌握本次项目中数仓的分层== ODS、DWD、DWB…

大数据 2023年11月13日
0129
• #### 【Azkaban报错解决】FAILED: SemanticException Failed to get a spark session

问题描述： ods_to_dwd_log报以下错误ods_to_dim_db报一下错误可以看出都是相同报错，无法创建spark事务 Logging initialized usin…

大数据 2023年11月13日
0132

主要用到函数说明：_DMxDrawX::HideToolBarControl 隐藏或显示工具栏上的按钮。详情如下： [En] Hides or shows buttons on t…

大数据 2023年5月24日
0163
• #### docker容器中安装vi命令

大数据 2023年5月29日
0192
• #### 【大数据处理技术】「#1」本地数据集上传到数据仓库Hive

文章目录 实验数据集下载 * 下载实验数据集 建立一个用于运行本案例的目录dbtaobao 数据集的预处理 * 删除文件第一行记录，即字段名称 获取数据集中双11的前100000条…

大数据 2023年11月12日
0109
• #### NLP文本摘要NO.1

什么是文本摘要任务 本质: 文本摘要任务就是利用模型自动完成关键信息的抽取, 文本核心语义的概括, 用一个简短的结果文本来表达和原文本同样的意思, 并传达等效的信息. 例如：中学语…

大数据 2023年5月28日
0200
• #### RedisCluster如何高效率地批量插入数据

大数据 2023年11月16日
087
• #### HackTherBox-WeatherApp

开启环境后发现提供题目源码的下载，解压后分析代码。部分关键代码粘贴如下。 通过分析源码发现是一个Node.js程序，分析routes/index.js文件，大概发现有四个路由地址，…

大数据 2023年11月11日
0109
• #### HC32L110(三) HC32L110的GCC工具链和VSCode开发环境

目录 HC32L110(一) HC32L110芯片介绍和Win10下的烧录 HC32L110(二) HC32L110在Ubuntu下的烧录 HC32L110(三) HC32L110…

大数据 2023年6月3日
0158
• #### hive之left semi join（左半连接）使用方法

目录 一、建表数据准备 二、语法 三、left semi join例子 四、left semi join、join、left join的区别 1、left semi join 2、…

大数据 2023年11月11日
0205
• #### ElasticSearch 7.8.x技术整理4 – 高级篇（ 续 ）

0、前言 变更原由：昨晚更新博客之后，第一次出现有人看得到，有人又看不到，我也不知道我设置了什么地方，所以我把原博客删了，重新发布 另外：其中一些理论与前面的知识点相关，所以我没有…

大数据 2023年5月26日
0147