Hadoop_mapreduce统计文本单词

2023年6月11日上午6:36 • 数据库 • 阅读 68

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词，

2、 MapReduce做什么

MapReduce擅长处理大数据，它为什么具有这种能力呢？这可由MapReduce的设计思想发觉。MapReduce的思想就是”分而治之”。

（1）Mapper负责”分”，即把复杂的任务分解为若干个”简单的任务”来处理。”简单的任务”包含三层含义：

一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此间几乎没有依赖关系。

（2）Reducer负责对map阶段的结果进行汇总。至于需要多少个Reducer，用户可以根据具体问题，通过在mapred-site.xml配置文件里设置参数mapred. reduce.tasks的值，缺省值为1。

一个比较形象的语言解释MapReduce：

我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是”Map”。我们人越多，数书就更快。

现在我们到一起，把所有人的统计数加在一起。这就是”Reduce”。

3、第一个MapReduce程序：WordCount

WordCount单词计数是最简单也是最能体现MapReduce思想的程序之一。

启动一个普通的maven工程。

如果运行没有报错那么就去任务输出路径查看生成的文件夹。

如果报错可能是环境变量问题博文：https://blog.csdn.net/tmh1995/article/details/106551092

Original: https://www.cnblogs.com/zzc1102/p/16246608.html
Author: and脱发周大侠
Title: Hadoop_mapreduce统计文本单词

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/599071/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

histogram的类型详解

采样点每隔指定的时间会采集并上报一次数据，称为采样点。请注意这里采集的是当前瞬间的数据 count 对采样点的次数累计和(count) bucket 对采样点的次数进行统计…

数据库 2023年6月9日
00154
Git 误删本地代码恢复

先复习一下本地 git 的三个区域着急的老哥可以直接冲恢复误删文件和总结本地 git 的面貌如图(向廖雪峰老师借的图，0.0)所示，本地有三块区域，工作区、暂存区(stage)…

数据库 2023年6月9日
0081
Collection

ArrayList底层使用了数组存储 LinkedList底层使用双向链表 HashSet底层是一个HashMap支持，HashMap底层物理实现一个Hash表 LinkedHas…

数据库 2023年6月14日
0079
Linux进程管理

进程管理基本概念介绍进程和线程进程：一个在内存中运行的应用程序，每一个进程都有自己独立的一块内存空间，并被分配一个ID号(PID)，在Windows下可以打开任务管理器查看…

数据库 2023年6月16日
0099
B树详解

B树系列文章 1. B树-介绍 2. B树-查找 3. B树-插入 4. B树-删除什么是B树 B树（英语：B-tree）是一种自平衡的树，能够保持数据有序。使用B树这种数据结构…

数据库 2023年6月14日
0089
Mysql 一主一从

1. 主从原理 1.1 主从介绍所谓 mysql 主从就是建立两个完全一样的数据库，其中一个为主要使用的数据库，另一个为次要的数据库，一般在企业中，存放比较重要的数据的数据库服务…

数据库 2023年6月14日
0070
爬虫基础_正则表达式_补

正则表达式正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个 “规则字符串”，这个 “规则…

数据库 2023年6月11日
00134
windows下安装mysql5.7

1.首先官网下载ZIP安装包（即以解压，配置的方式安装） 2.解压完成之后在目录下创建 my.ini文件内容如下： [mysql]设置mysql客户端默认字符集default-c…

数据库 2023年5月24日
0076
MySQL完整版详解

一、数据库的操作 1.创建数据库如果您在可视化软件上创建数据库，请参阅下图 [En] If you create a database on a visualization so…

数据库 2023年5月24日
0084
MySQL实战45讲 9

09 | 普通索引和唯一索引，应该怎么选择？每个人都有一个唯一的身份证号，而且业务代码已经保证了不会写入两个重复的身份证号。如果市民系统需要按照身份证号查姓名，就会执行类似这样的…

数据库 2023年5月24日
00102
Mysql数据库存取原理及性能优化

一、Mysql的系统架构图二、Mysql存储引擎 Mysql中的数据是通过一定的方式存储在文件或者内存中的，任何方式都有不同的存储、查找和更新机制，这意味着选择不同的方式对于数据…

数据库 2023年5月24日
0051
【StoneDB技术解析】验证相关数据包是否需要解压缩

在StoneDB中，数据包分为以下几类：通过对数据包的划分，知识网格技术过滤掉不相关的数据包，读取相关的数据包和可疑的数据包。其中相关的数据包不需要解压缩，只读取元数据，不会发生…

数据库 2023年5月24日
0069
mysql创建用户并授权

新建用户 create user ‘username’@’%’ identified by ‘password’; • user_name：要创建用户的名字。• host：表示要这…

数据库 2023年5月24日
0052
MySQL 日志管理

日志文件记录 MySQL 数据库运行期间发生的变化，当数据库遭到意外的损害时，可以通过日志文件查询出错原因，并进件数据恢复 MySQL 日志文件可以分成以下几类：二进制日志：记录…

数据库 2023年5月24日
0054
linux下centos7.2下安装redis 4.0.6

一、安装 redis 第一步：下载 redis 安装包 wget http://download.redis.io/releases/redis-4.0.6.tar.gz [roo…

数据库 2023年6月14日
0063
SQL的约束

概念：约束是作用于表中字段上的规则，用于限制存储表中的数据；常见的约束分类：约束描述关键字非空约束限制该字段的数据不能为null not null 唯一约束保证该字段的…

数据库 2023年6月16日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Hadoop_mapreduce统计文本单词

2、 MapReduce做什么

3、第一个MapReduce程序：WordCount

大家都在看