Hadoop_mapreduce统计文本单词

2023年6月11日上午6:36 • 数据库 • 阅读 83

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，

2、 MapReduce做什么

MapReduce擅长处理大数据，它为什么具有这种能力呢？这可由MapReduce的设计思想发觉。MapReduce的思想就是”分而治之”。

（1）Mapper负责”分”，即把复杂的任务分解为若干个”简单的任务”来处理。”简单的任务”包含三层含义：

一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此间几乎没有依赖关系。

（2）Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer，用户可以根据具体问题，通过在mapred-site.xml配置文件里设置参数mapred. reduce.tasks的值，缺省值为1。

一个比较形象的语言解释MapReduce：

我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是”Map”。我们人越多，数书就更快。

现在我们到一起，把所有人的统计数加在一起。这就是”Reduce”。

3、第一个MapReduce程序：WordCount

WordCount单词计数是最简单也是最能体现MapReduce思想的程序之一。

启动一个普通的maven工程。

如果运行没有报错那么就去任务输出路径查看生成的文件夹。

如果报错可能是环境变量问题博文：https://blog.csdn.net/tmh1995/article/details/106551092

Original: https://www.cnblogs.com/zzc1102/p/16246608.html
Author: and脱发周大侠
Title: Hadoop_mapreduce统计文本单词

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599071/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Linux–>软件包管理

rpm用于互联网下载包的打包和安装工具，它包含在某些Linux分发版本中。它生成具有.RPM扩展名的文件。 RPM是RedHat Package Manager(RedHat软件…

数据库 2023年6月14日
0082
Mysql 的Innodb引擎和Myisam数据结构和区别

先大体看一下MySQL的SQL layer层的一个架构流程：简要介绍一些关键模块： [En] Give a brief description of some key modul…

数据库 2023年5月24日
0090
MySQL 索引排序

表结构和数据 CREATE TABLE t1 ( id int(11) NOT NULL AUTO_INCREMENT, a int(11) DEFAULT NULL, b int…

数据库 2023年5月24日
0080
客户流失？来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

💡 作者：韩信子@ShowMeAI📘 大数据技术 ◉ 技能提升系列：https://www.showmeai.tech/tutorials/84📘 行业名企应用系列：https:/…

数据库 2023年6月14日
0087
Springboot 注解失效问题 @Async, @Transactional, @Subsribe

问题描述：在一个Service的某个方法上使用了guava eventbus @subscribe注解，最开始发现没有收到消息，debug发现是该service的该方法没有注册到e…

数据库 2023年6月11日
0079
《Unix环境高级编程》笔记

基础 Unix操作系统体系结构操作系统就是一种软件，它管理控制计算机的硬件资源，提供程序运行的环境，这种软件又被称为内核（Kernel）。内核提供的接口被称为系统调用（Syste…

数据库 2023年6月11日
00101
聊天软件的后端架构NIO

聊天软件等的技术，朋友圈，钉钉，微博分两种技术模式：1.读扩散：也就是拉模式消息会存储到自己的发件箱里面，然后让每个上线的人去拉取未读消息，缺点是每次都要去好多底线去拉取数据，读操…

数据库 2023年6月16日
00138
Mysql数据库 ALTER 基本操作

背景： ALTER作为DDL语言之一，工作中经常遇到，这里我们简单介绍一下常见的几种使用场景新建两个测试表offices 和 employess CREATE TABLE off…

数据库 2023年6月14日
0082
程序员“迷惑代码”大赏

谈到程序员，对于外行人来说一贯的印象就是格子衫大裤衩外加人字拖，蓬头（秃头）垢面黑眼圈，还有就是”人傻钱多死得快”🤣，这是外界对程序员固有的思想，但是作为新…

数据库 2023年6月11日
0091
gitlab-runner浅谈——【git fetch-pack: expected shallow list】解决方法

配置完gitlab-runner后执行job总是失败，如下：解决方法分析原因发现是git的版本太低了，我用的是系统自带的1.8.3的版本。后来更新为：2.31.1 后job可以…

数据库 2023年6月11日
0079
Jenkins初始化界面一直显示Please wait while Jenkins is getting ready to work …

第一次访问 jenkins时，会提示如下界面：注：如果这个界面初始化的时间过长，则需要修改相关配置文件。原因：因为访问官网太慢。我们只需要换一个源，不使用官网的源即可。 1、找…

数据库 2023年6月14日
0069
Zabbix自带模板监控MySQL服务

Zabbix的服务端与客户端的安装这里不再赘述了，前面也有相应的文章介绍过了，感兴趣的伙伴们可以看看历史文章就可以了，今天主要介绍下如何利用zabbix自带的模板来监控MySQL服…

数据库 2023年6月9日
00112
实现一个简单的Database2(译文）

前文回顾：实现一个简单的Database1(译文）译注：cstsck在github维护了一个简单的、类似sqlite的数据库实现，通过这个简单的项目，可以很好的理解数据库是如何运…

数据库 2023年6月11日
00102
MySQL45讲之查询慢或者阻塞

前言本文介绍了表锁定和执行速度慢的实例，以及表锁定时的故障排除方法。 [En] This paper introduces examples of table locking a…

数据库 2023年5月24日
00112
mysql中all用法和any的用法和内连接和外连接,全外连接,联合查询,自连接

与子查询配合使用在all的用法中,有三种语法:select 列名 from 表名 where 列名 <> all(select 列名 from 表名 where 条…

数据库 2023年5月24日
00112
Try-with-resources are not supported at language level ‘5’

Try-with-resources are not supported at language level ‘5’没有指定maven版本导致的指定ma…

数据库 2023年6月16日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Hadoop_mapreduce统计文本单词

2、 MapReduce做什么

3、第一个MapReduce程序：WordCount

大家都在看