记一次stormOOM异常的产生与解决

2023年6月6日上午11:45 • 数据库 • 阅读 77

最近这段时间开始了一个新项目，项目使用rabbitMQ存储采集数据，通过storm对rabbitMQ中的数据进行实时计算，将结果存入到rabbitMQ的另一个队列中，再由另外一个storm服务将结果保存到elasticsearch中进行存储，以此实现大数据的实时计算存储。

在项目首次部署阶段，一切正常。在storm服务部署完成并启动后，开启采集服务，成功实现了数据的实时计算与存储。设置的单批次最大消费数为10000，rabbit的incoming与diliver为400-500/s。运行结果一切正常，没有出现数据丢失或数据积压的情况。

然而好景不长，没过几天后的一次更新，将storm服务kill掉重启后，rabbit的数据在重启过程中有了一定量的堆积，此时重启storm后出现了OOM异常。

WHAT？？？为啥之前本地测试积压了十几万条数据,每秒1000-1200条数据都能成功消费,而生产不过每秒400-500条的数据却出现了OOM内存不足的情况呢？

错误复现

首先在本地模拟数据,模拟数据总计20000条,存入rabbitMQ中。

为了测试数据堆积场景下的数据消费情况，分别开启Storm服务,对rabbit数据进行计算与存储。
第一阶段:数据的实时计算

第二阶段:数据的存储

可以看到storm的数据是能够成功计算与存储的。即使出现积压也没有出现数据丢失或OOM异常。

此刻, 模拟数据总计条数不变,将每条消息的大小扩大为以前的10倍左右
原数据大小:

修改后的数据大小：

重新开启storm服务
第一阶段:

第二阶段：

可以看到数据出现了很明显的丢失情况,后台日志也打印出了OOM异常
记一次stormOOM异常的产生与解决

问题分析

Storm对每个Topology默认的大小分配是768M，在生产环境，数据通过analyse服务时没超过这个内存阈值,所以当时analyse服务在生产没有出现OOM异常，而通过计算处理后放入另外一个队列中的数据，单批次数据的大小超过了内存大小阈值，所以在save服务出现了OOM异常。

在测试条件下，saveTopology的内存占用就已经超过了768M，所以在analyse服务下也出现了OOM异常，
到了Save服务下甚至只有600条不到数据成功写入ES。

问题解决

在项目中,添加配置
worker.heap.memory.mb
topology.worker.max.heap.size.mb
配置从Zookeeper中读取,不同的环境下配置不同的内存大小。

Assigned Mem(MB) 为配置的内存大小（默认条件下是768M）+LogWriter的64M

此时再重新进行数据模拟及积压数据的计算与存储
第一阶段

第二阶段

可以看到这次不再出现OOM异常,数据成功进行了计算与存储。

总结

在一般流式计算的场景下，数据进入队列立刻被消费时，很多问题不会出现。但这并不代表系统就是没有问题的。在某个时间点，突然有大批量的数据写入,或当Storm服务中断掉等一系列场景使得消息队列中有大量数据积压时，内存、线程、队列等一系列因素会导致很多在开发时没有注意的细节问题，如何保证数据能加速消费的同时不出现数据的丢失，也是一个需要开发者思考的问题。

Original: https://www.cnblogs.com/winter0730/p/15251836.html
Author: cos晓风残月
Title: 记一次stormOOM异常的产生与解决

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/576276/

转载文章受原作者版权保护。转载请注明原作者出处！

数据库

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

你的 SQL 还在回表查询吗？快给它安排覆盖索引

什么是回表查询小伙伴们可以先看这篇文章了解下什么是聚集索引和辅助索引：Are You OK？主键、聚集索引、辅助索引，简单回顾下，聚集索引的叶子节点包含完整的行数据，而非聚集索引…

数据库 2023年5月24日
0084
Mysql数据库语言学习的路线

对于我们数据库的学习，不管是测试人员还是开发人员以及我们的DBA来说重点都是SQL；但是我们的SQL可以分多少类型，学习重点又是在哪里呢，本文仅仅针对测试人员来展开说明： SQL：…

数据库 2023年5月24日
0067
synchronized 是可重入锁吗？为什么？

什么是可重入锁？若一个程序或子程序可以”在任意时刻被中断然后操作系统调度执行另外一段代码，这段代码又调用了该子程序不会出错”，则称其为可重入（reentr…

数据库 2023年6月16日
0090
每个开发人员都应该关注的7个优秀的GitHub仓库

1. FreeCodeCamp 2. Developer Roadmap 3. Awesome 4. Build Your Own X 5. Git Ignore 6. Syste…

数据库 2023年6月11日
00100
git 清除账号密码缓存

配置用户名和邮箱： git config –global user.name “username”git config –globa…

数据库 2023年6月11日
0087
Java编程作业

1、编程题设计一个用户类User，类中的变量有用户名、密码和记录用户数量的变量，定义3个构造方法：无参的、为用户名赋值的、为用户名和密码赋值的，还有获取和设置密码的方法和返回类信…

数据库 2023年6月11日
0081
Asp.Net Core 发布和部署（ MacOS + Linux + Nginx ）

在上篇文章中，主要介绍了 Dotnet Core Run 命令，这篇文章主要是讲解如何在Linux中，对 Asp.Net Core 的程序进行发布和部署。有关如何在 Jexus …

数据库 2023年6月11日
00110
ES6 Map映射

ES6 Map映射 Map对象保存的是键值对。任何类型值(对象或原始值)都可以作为一个键或一个值。基础用法 //创建 let map = new Map(); //增|改,返回…

数据库 2023年6月11日
0092
Figma 快捷键

作用 WINDOWS MAC 窗口切换到Home Ctrl + 1 Cmd + 1 窗口切换到打开的第一个文件 Ctrl + 2 Cmd + 2 打开菜单搜索 Ctrl + / C…

数据库 2023年6月6日
0086
java 桥接方法

1.桥接方法简介桥接方法是jdk1.5引入泛型后，为使java泛型方法生成的字节码与jdk1.5版本之前的字节码兼容由编译器自动生成的。可用 method.isBridge()…

数据库 2023年6月16日
0096
一个Tomcat 如何部署多个项目？附多种解决方案及详细步骤！

; 此文源自一次多年前面试的面试题，民工哥将它总结出来分享给大家，希望对大家有所帮助，或者今后的面试中说不定会用的上。首先，我们了解一下常见的Java Web服务器。 Tomca…

数据库 2023年6月9日
00167
（面试）大型网站应用之海量数据、高并发解决方案

面试时会遇到这样的提问，就记录下来，加深印象；以后工作中也可以用到。海量数据的解决方案：网站访问数据的特点大多数呈现为”二八定律”：80%的业务访问集中…

数据库 2023年6月11日
0052
002从零开始入门Entity Framework Core——DbContext生存期、配置和初始化

阅读须知：本文为入门介绍、指引文章，所示代码皆为最简易（或仅为实现功能）的演示示例版本，不一定切实符合个人（企业）实际开发需求。 DbContext 的生存期从创建实例时开始，并在…

数据库 2023年6月14日
0078
leetcode 572. Subtree of Another Tree 另一棵树的子树 (简单)

一、题目大意给你两棵二叉树 root 和 subRoot 。检验 root 中是否包含和 subRoot 具有相同结构和节点值的子树。如果存在，返回 true ；否则，返回 fa…

数据库 2023年6月16日
00108
python pywin32学习笔记

参考博客链接参考博客链接 pyhandle windows窗体句柄，int 类型　　className 窗体类名　　text 窗体标题窗体置顶　　窗体最大化通过父pyhand…

数据库 2023年6月11日
0088
老板：把系统从单体架构升级到集群架构！

首发于公众号：BiggerBoy 如题，本文针对工作中实际经验，整理了把一个单体架构的系统升级成集群架构需要做的准备工作，以及为集群架构的升级做指导方针。本文首先分析了单体架构存…

数据库 2023年6月11日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

记一次stormOOM异常的产生与解决

错误复现

问题分析

问题解决

总结

大家都在看