MapReduce入门实例——WordCount

2023年6月8日上午1:54 • Linux • 阅读 90

摘要：MapReduce的IDEA配置及WordCount案例

Maven项目配置

创建一个空的Maven项目

打开根目录下的 pom.xml文件，参考配置：


    UTF-8
    3.2.2

        junit
        junit
        4.10
        test

        org.apache.hadoop
        hadoop-client
        ${hadoop.version}

        org.apache.hadoop
        hadoop-common
        ${hadoop.version}

        org.apache.hadoop
        hadoop-hdfs
        ${hadoop.version}

在项目的 src/main/java/resources下新建 log4j.properties，参考配置

参考配置1
log4j.rootLogger = info,console

log4j.appender.console = org.apache.log4j.ConsoleAppender
log4j.appender.console.Target = System.out
log4j.appender.console.layout = org.apache.log4j.PatternLayout
log4j.appender.console.layout.ConversionPattern = %d{ABSOLUTE} %5p %c:%L - %m%n

glibc lib version diff
log4j.logger.org.apache.hadoop.util.NativeCodeLoader=ERROR

参考配置2
log4j.rootLogger = debug,stdout

### 输出信息到控制台 ###
log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.Target = System.out
log4j.appender.stdout.layout = org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern = [%-5p] %d{yyyy-MM-dd HH:mm:ss,SSS} method:%l%n%m%n

编写应用程序


/**
 * 导入包
 */

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

/**
 * WordCount应用程序
 */
public class WordCountApp {

    /**
     * Mapper
     */
    public static class MyMapper extends Mapper {
        LongWritable one = new LongWritable(1);
        @Override
        public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            // 接收到的每一行数据
            String line = value.toString();
            // 按照指定分隔符进行拆分
            String[] words = line.split(" ");
            for(String word: words){
                // 通过上下文把map的处理结果输出
                context.write(new Text(word), one);
            }
        }
    }

    /**
     * Reduce归并
     */
    public static class MyReducer extends Reducer{
        @Override
        protected void reduce(Text key, Iterable values, Context context) throws IOException, InterruptedException{
            long sum = 0;
            for(LongWritable value: values){
                // 求key出现的次数
                sum += value.get();
            }
            // 最终统计结果输出
            context.write(key, new LongWritable(sum));
        }
    }

    /**
     * 定义Driver：封装了MapReduce作业的所有信息
     */
    public static void main(String[] args) throws Exception{
        // windows版本设置HADOOP_HOME环境变量后，若不重启电脑，需要填加该语句
        //System.setProperty("hadoop.home.dir", "C:/Development/hadoop");
        System.setProperty("hadoop.home.dir", "/usr/local/hadoop");
        // 设置操作用户，默认root
        System.setProperty("HADOOP_USER_NAME", "root");
        //创建Configuration
        Configuration configuration = new Configuration();
        // 设置fs.defaultFS参数，默认本地读取
        configuration.set("fs.defaultFS", "hdfs://master:9000");
        // 若参数数量不为2，报错退出，第一个参数读取是输入目录（HDFS），第二个参数是输出目录
        if (args.length != 2) {
            System.err.println("Usage: MyDriver  ");
            System.exit(2);
        }
        // 如果输出目录存在，则删除
        Path mypath = new Path(args[1]);
        FileSystem hdfs = mypath.getFileSystem(configuration);
        if (hdfs.isDirectory(mypath)) {
            hdfs.delete(mypath, true);
        }
        //创建Job
        Job job = Job.getInstance(configuration, "wordcount");
        //设置job的处理类
        job.setJarByClass(WordCountApp.class);
        //设置作业处理的输入路径
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        //设置map相关参数
        job.setMapperClass(MyMapper.class);
        //设置Map阶段的输出类型: k2 和V2的类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);
        //分区，排序，规约，分组步骤采用默认方式
        //设置reduce相关参数
        job.setReducerClass(MyReducer.class);
        //设置Reduce阶段的输出类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);
        //设置作业处理的输出路径
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

IDEA配置

编辑运行环境

使用远程环境，设置ssh连接，添加input和output目录

Debug

Original: https://www.cnblogs.com/dominickk/p/16361606.html
Author: DominicKK
Title: MapReduce入门实例——WordCount

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/585428/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基本数据类型的长度

32位机器和64位机器中int、char等数据类型所占字节长度对比。在32位机器和64机器中int类型都占用4个字节。编译器可以根据自身硬件来选择合适的大小，但是需要满足约束：s…

Linux 2023年6月13日
0084
一文搞懂 Redis 架构演化之路

作者：ryetan，腾讯 CSIG 后台开发工程师现如今 Redis 变得越来越流行，几乎在很多项目中都要被用到，不知道你在使用 Redis 时，有没有思考过，Redis 到底是…

Linux 2023年5月28日
0092
linux常用命令(持续更新中…)

查看所有开机启动服务：systemctl list-unit-files # 按Enter翻页查看所有开机启动服务：systemctl list-unit-files | gre…

Linux 2023年6月7日
0077
安装了nodejs，但是npm命令没反应(因环境变量导致的问题)

解决方法：在环境变量-系统变量的Path里添加nodejs的安装路径地址，默认为”C:\Program Files\nodejs”。 Original: h…

Linux 2023年6月7日
0091
MIT6.828(Step0)——实验环境配置

实验环境配置 VirtualBox虚拟机为载体，安装Ubuntu $ uname -a Linux eliot-VirtualBox 5.11.0-36-generic #40~2…

Linux 2023年5月27日
0085
Unable to install NuGet provider for PowerShell

https://docs.microsoft.com/en-us/officeonlineserver/enable-tls-1-1-and-tls-1-2-support-in-…

Linux 2023年5月28日
0062
macos 文件系统 git仓库大小写敏感设置; git config core.ignorecase

macos 的文件系统不区分文件名的大小写，这样会导致在一个文件夹，当修改一个文件名为大写的时候，git不能感知到。这样使用过程中会出现很多不必要的麻烦。之前设置过，最近使用，发现…

Linux 2023年6月14日
00103
Redis中删除过期Key的三种策略

转载自：http://blog.csdn.net/a_bang/article/details/52986935?locationNum=9&fps=1 项目中有个接口要频…

Linux 2023年5月28日
0096
关于.Net Core生成JSON时错误：A possible object cycle was detected which is not supported. This can either be due to a cycle or if the object depth is larger than the maximum allowed depth of 32.

此笔记记载了本人在.Net Core 5.0环境下生成Json数据时 A possible object cycle was detected which is not suppo…

Linux 2023年6月14日
00166
国产化之x64平台安装银河麒麟操作系统

背景某个项目需要实现基础软件全部国产化，其中操作系统指定银河麒麟v4，CPU使用飞腾处理器。飞腾处理器是ARMv8架构的，在之前的文章中介绍了使用QEMU模拟ARMv8架构安装银…

Linux 2023年5月27日
0071
zabbix

1. zabbix介绍 2. zabbix特点 3. zabbix配置文件 4. 部署zabbix zabbix介绍 zabbix是一个基于WEB界面的提供分布式系统监视以及网络监…

Linux 2023年6月7日
00147
网卡的RX Ring和TX Ring

1 简介环形缓冲(ring buffer)是NIC处理数据包的一种通用数据结构，出现的原因是现代NIC基本使用DMA进行数据传输，作为一种高效简单[1]的数据结构，环形缓冲很适…

Linux 2023年6月7日
0093
安装完Ubuntu启动时自动进入grub命令行模式的解决办法

1.先使用ls命令，找到Ubuntu的安装在哪个分区: grub>ls 会罗列所有的磁盘分区信息，比方说: (hd0,1),(hd0,5),(hd0,3),(hd0,2) 2…

Linux 2023年6月13日
0082
Java Web登录界面

非常激动的开通了我的第一个博客，在这里希望大家能多多指点，相互学习。一个简单的登录界面首先我们先把这个登录分为三块：一、数据库数据库我用的是MYSQL；二、前端三、后台…

Linux 2023年6月13日
00102
tomcat上部署jenkins

tomcat上部署jenkins tomcat上部署jenkins 部署tomcat 部署jenkins Jenkins创建流水线任务主机名称 IP地址需要的应用服务工具包 …

Linux 2023年6月6日
0091
EXCEL中vlookup函数的使用

=LOOKUP(“座”,INDIRECT(“A1:A”&MATCH(E3,B1:B14,))) 这个公式中还嵌套了INDIR…

Linux 2023年6月13日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

MapReduce入门实例——WordCount

Maven项目配置

编写应用程序

IDEA配置

Debug

大家都在看