hadoop项目之求出每年二月的最高气温（Combiner优化）

2023年7月11日上午12:49 • 技术杂谈 • 阅读 67

一、项目结构

一、java实现随机生成日期和气温

package com.shujia.weather;

import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.text.DateFormat;
import java.text.ParseException;
import java.text.SimpleDateFormat;
import java.util.Date;

public class RandomWeather {
    public static void main(String[] args) throws ParseException, IOException {
        //创建日期格式
        DateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");
        long start = sdf.parse("2000-01-01 00:00:00").getTime();
        long end = sdf.parse("2022-12-31 00:00:00").getTime();
        long difference=end - start;

        BufferedWriter bw = new BufferedWriter(new FileWriter("F:\\software\\IdeaProjects\\bigdata19-project\\biddata19-mapreduce\\src\\data\\weather.txt"));
        for (int i=0;i

二、将这个weather.txt文件上传到虚拟机后再上传到hadoop

1&#x3001;&#x901A;&#x8FC7;xftp&#x4E0A;&#x4F20;&#x6587;&#x4EF6;
2&#x3001;&#x901A;&#x8FC7;&#x547D;&#x4EE4;&#x4E0A;&#x4F20;&#x5230;hadoop
hadoop fs -put weather.txt /&#x8DEF;&#x5F84;

三、项目实现

package com.shujia.weather;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

class WeatherMapper extends Mapper{
    /*
    2022-06-12 02:40:26 21
    2002-01-03 03:49:27 -13
    2001-04-21 19:19:22 -16
    2005-01-18 01:52:15 10
    求出每年二月份的最高气温
     */

    @Override
    protected void map(LongWritable key, Text value, Mapper.Context context) throws IOException, InterruptedException {
        String line = value.toString();
        String[] str = line.split("\t");
        String temperature = str[1];
        String[] strings = str[0].split("-");
        String Month = strings[1];
        if ("02".equals(Month)){
            context.write(new Text(strings[0]+"-"+Month),new LongWritable(Long.parseLong(temperature)));
        }

    }
}

class WeatherReducer extends Reducer{
    @Override
    protected void reduce(Text key, Iterable values, Reducer.Context context) throws IOException, InterruptedException {
        long max=0L;
        for (LongWritable value : values) {
            long l = value.get();
            if (l>max){
                max=l;
            }
        }
        context.write(key,new LongWritable(max));
    }
}

public class WeatherDemo {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        job.setCombinerClass(WeatherReducer.class);//Combiner优化
        job.setJarByClass(WeatherDemo.class);
        job.setMapperClass(WeatherMapper.class);
        job.setReducerClass(WeatherReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        job.waitForCompletion(true);
    }
}

优化前

优化后

减少了reduce 从map拉取数据的过程，提高计算效率。

hadoop 的计算特点： 将计算任务向数据靠拢，而不是将数据向计算靠拢。

注意：将reduce端的聚合操作，放到map 进行执行。适合求和，计数，等一些等幂操作。不适合求平均值，次幂等类似操作

Original: https://www.cnblogs.com/bfy0221/p/16640855.html
Author: 伍点
Title: hadoop项目之求出每年二月的最高气温（Combiner优化）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/684050/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

String为什么不是基本数据类型

java虚拟机处理基础类型与引用类型的方式是不一样的，对于基本类型，java虚拟机会为其分配数据类型实际占用的内存空间，对于引用类型变量，他仅仅是一个指向堆区中某个实例的指针。 O…

技术杂谈 2023年6月21日
0091
python数据可视化-matplotlib入门(1)–安装及绘制简单的曲线

一、安装matplotlib 1）由于已安装anaconda，可直接打开anaconda prompt，再用命令pip install matplotlib进行安装，因镜像问题，可…

技术杂谈 2023年7月25日
0087
Linux Ubuntu 添加新用户

1. 了解配置文件 Linux下与用户信息相关的配置文件有 /etc/passwd、 /etc/group、 /etc/shadow等，其权限分别如下： /etc/passwd：保…

技术杂谈 2023年7月11日
0072
oclint 是编译器缺省语法检查功能的增强

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

技术杂谈 2023年5月30日
0099
Microsoft帐户无法登录怎么办，换个dns试试

最近系统设置老提示Microsoft账户重新登录，但始终是无法登录上去，一直转圈并提示请稍等…，最后还提示发生了错误，”请重试，或选择”取消&#…

技术杂谈 2023年5月30日
00185
Rust:axum学习笔记(4) 上传文件

接上一篇继续，上传文件是 web开发中的常用功能，本文将演示axum如何实现图片上传（注：其它类型的文件原理相同），一般来说要考虑以下几个因素：文件上传的大小限制文件上传的类型…

技术杂谈 2023年5月31日
0095
mybatis学习笔记（二）for 实践

mybatis基本应用 1 快速入门 myBatis官网地址：http://www.mybatis.org/mybatis-3/ 1.1 开发步骤引入依赖创建user表编写U…

技术杂谈 2023年7月11日
0070
win10系统智能云输入法怎么卸载_win10卸载智能云输入法的方法

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

技术杂谈 2023年5月31日
0098
Spring中的声明式事务管理

方式一：基于xml配置文件方式 1.创建一个测试类 package com.dzj.service; import com.dzj.dao.UserDaoImpl; import …

技术杂谈 2023年6月21日
00102
【转】Apache httpd.conf配置详解

常用配置指令说明 1. ServerRoot：服务器的基础目录，一般来说它将包含conf/和logs/子目录，其它配置文件的相对路径即基于此目录。默认为安装目录，不需更改。语法：…

技术杂谈 2023年6月1日
0090
在Windows服务器上启用远程桌面连接

按照以下的步骤来启用远程桌面连接，可以允许同时连接多人。 Step1：登录Windows 服务器””，打开”Start”（按下Win…

技术杂谈 2023年5月31日
0089
iOS 使用第三方字体

在iOS的项目开发中经常遇到需要使用一些自定义的字体文件，比如 仿宋_GB2312、 华康&…

技术杂谈 2023年5月30日
0062
VIM简单配置

配置vim配置编辑配置文件 feng@mint ~ $ vim ~/.vimrc 配置如下主要配置为自动换行，设置行号，设置tab键为4个空格，同时将tab键自动转换成空格 se…

技术杂谈 2023年6月21日
0075
我的企业微信

服务项目技术咨询微信图书微信视频微信代码定制开发其他福利服务入口 QQ群有问必答查看详情;一本书解决90%问题查看详情微信开发视频小程序开发视频免费代码￥188…

技术杂谈 2023年5月31日
0071
VMware 虚拟机图文安装和配置 Ubuntu Server 22.04 LTS 教程

前言：本文将以 Ubuntu Server 22.04 LTS 为例，说明在 VMware 虚拟机中的安装和配置 Linux 操作系统的步骤。一、VMWare 安装配置二、Ub…

技术杂谈 2023年7月11日
00114
Exchange配置

Exchange2019安装前准备： 1.安装.net4.82.安装vcredist3.安装UcmaRuntime4.安装rewrite_amd64_zh-CN 5.准备DAG I…

技术杂谈 2023年5月31日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

hadoop项目之求出每年二月的最高气温（Combiner优化）

一、项目结构

一、java实现随机生成日期和气温

二、将这个weather.txt文件上传到虚拟机后再上传到hadoop

三、项目实现

大家都在看