“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

大家好,我是陶朱公Boy。

背景

今天跟大家分享一个前几天在线上碰到的一个GC故障— ” CMSGC太频繁 “。

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
*[En]*

**

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

什么是CmsGc?CmsGc太频繁又是什么意思?什么情况下会触发CMSGC太频繁这种告警?要怎么样去找到那个被频繁创建的对象?最后又需要怎么规避?

接下来这篇文章我会来回答一下:什么是CMSGC太频繁;整个排查过程与你分享;最后我们一起探讨一下一些规避手段。

什么是CMSGC太频繁

首先我觉得还是有必要解释清楚什么是CMSGC太频繁这个术语,相信不少小伙伴也是比较关心的。

如果你听过垃圾搜集器中有一款名为CMS垃圾搜集器,那就好理解了,所谓的CMSGC太频繁意思是说CMS垃圾搜集器在当下时间窗口垃圾收集的动作频次太快(平时老半天才回收一次或几次垃圾对象,现在可能一分钟就需要回收多次),大致就是这个意思。
关于CMS垃圾收集器的说明:

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
上述这张图中共有7种不同的垃圾搜集器,用连线表示它们彼此之间的搭配使用。 分割线上面部分是年轻代区域,像Serial、ParNew、Parallel Scavenge这三款垃圾收集器是用来搜集年轻代内存区域的垃圾收集器。 分割线下面部分是老年代区域,像CMS、Serial Old、Parallel Old这三款垃圾收集器用来收集老年代区域的垃圾收集器。 在实际线上配置场景中,我们一般通过CMS+ParNew,采用分代收集(parNew垃圾收集器用来收集年轻代区域,Cms垃圾收集器用来收集老年代区域)来进行配置。

所以说CMS垃圾收集器是一款作用于老年代区域的垃圾收集器。

关于CMS+ParNew垃圾搜集器的配置说明:大家如果在VM启动配置参数中做如下配置:-XX:+UseConcMarkSweepGC.该配置项首先是激活CMS收集器(作用于老年代)。之后-XX:UseParNewGC会自动开启,意味着年轻代将使用多线程并行垃圾收集器parNew进行回收。

原因分析

上文中,我给大家解释了CMSGC太频繁的意思。其实就是CMS垃圾搜集器对作用于老年代的垃圾对象进行回收,但频次太高,所以才触发了告警。 接下来给大家介绍一下引起对象进入老年代的几种场景,然后再给大家介绍一下几种触发CMSGC的情况。大家需要先搞明白有哪些情况对象会进入老年代,又达到什么标准作用于老年代的垃圾收集线程开始会对垃圾对象进行回收。 ▲对象进入老年代的几种情况

  • 新生代因为垃圾回收之后,因为存活对象太多,导致Survivor空间放不下,部分对象会进入老年代
  • 大对象直接进入老年代

这里的大对象是指那些需要大量连续空间的JAVA对象,比如那种很长的字符串或数组对象。

  • 长期存活的对象将进入老年代

对象在Eden出生,并经过第一次YGC后任然存活,并且能被Survivor空间容纳,将被移动到Survivor空间中,并且对象年龄设为1。对象在Survivor空间每熬过一次YGC,年龄就增加一岁,如果达到15(默认)岁,对象就会进入老年代。

  • 动态对象年龄判断

这点是对长期存活的对象进入老年代的补充。 其实不一定要必须满足所谓的存活对象年龄达到15岁才能进入老年代。如果一次YGC后,尽管Survivor区域有空间能容纳存活对象,但这批存活对象恰好存活的年龄相同,且加起来的大小总和大于Survivor空间的一半,这些对象照样会进入老年代。 ▲触发CMS垃圾收集动作的几个时机 CMS垃圾收集动作不可能实时发生,只有满足了相应条件,才会被触发。以下几点供你参考:

  • 老年代可用的连续空间 小于年轻代历次YGC后升入老年代的对象总和的平均大小,说明YGC后升入老年代的对象大小很可能超过了老年底当期可用的内存空间;触发cmsgc后再进行ygc
  • ygc之后有一批对象需要放入老年代,但老年代没有足够的空间存放了,需要触发一次cmsgc
  • 老年代的内存使用率超过92%,也要触发OLD 过程(通过参数控制-xx:+CMSInitiatingOccupancyFraction)

排查过程

*[En]*

**

  1. 配置VM参数 -XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=${LOGDIR}/ 虚拟机在OOM异常之后会自动生成一份dump文件在本地 。
    “喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
  2. 阿里开源性能诊断工具: Arthas

阿里开源的性能诊断工具Arthas通过命令heapdump[类似jmap命令的heap dump功能]能生成堆快照文件。 详情大家可以参考官方说明文档: https://arthas.gitee.io/doc/heapdump.html

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
▲步骤二:分析堆文件 分析步骤一生成的堆文件,一般需要借助一些工具常见的有MAT、Jvisualvm等。

接下来作者用本次告警dump下来的堆文件,用MAT工具给大家演示一下具体查找问题对象的全过程。

MAT是Memory Analyzer tool的缩写,是一种快速,功能丰富的Java堆分析工具,能帮助你查找内存泄漏和减少内存消耗。 很多情况下,我们需要处理测试提供的hprof文件,分析内存相关问题,那么MAT也绝对是不二之选。Eclipse可以下载插件结合使用,也可以作为一个独立分析工具使用。 下载地址:eclipse.org/mat/downloa 。如果安装过程中可能会碰到版本过低的问题,需要安装一下高版本JDK 比如11,最后设置一下安装路径即可。

打开堆文件

如果你已经成功安装完MAT。进入首页后就可以打开本地hprof文件了。

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

打开文件后,进入分析页

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
底部有三个功能块:Action、Reports、Step By Step。简单给大家介绍一下相应内容:
  • ActionsHistogram 列出每个类所对应的对象个数,以及所占用的内存大小;Dominator Tree 以占用总内存的百分比的方式来列举出所有的实例对象,注意这个地方是直接列举出的对应的对象而不是类,这个视图是用来发现大内存对象的Top Consumers:按照类和包分组的方式展示出占用内存最大的一个对象Duplicate Classes:检测由多个类加载器所加载的类信息(用来查找重复的类)
  • Reports: Leak Suspects:通过MAT自动分析当前内存泄露的主要原因
    Top Components:Top组件,列出大于总堆1%的组件的报告
  • Step By Step
    Component Report:组件报告,分析属于公共根包或类加载器的对象

Histogram选项 这里大家重点关注Histogram选项(列出每个类所对应的对象个数,以及所占用的内存大小)

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
DomainTree选项(以占用总内存的百分比的方式来列举出所有的实例对象)

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

关注上述两个选项基本就能找到问题对象了。

解决方案

要避免发生CMSGC太频繁这种情况,我总结了以下2种方案:

  1. 如果你的程序代码书写正常,纯粹是真的应用流量太大,你部署的机器没办法抗住这波流量,这种情况发生CMSGC太频繁概率就很大了,甚至最终会导致OOM异常。对这种情况也只能横向扩充机器了,以均衡流量。
  2. 如果你的机器足够,线上流量也正常,但也发生了cmsgc太频繁,甚至OOM异常。那大概率是你的程序代码有问题,导致老年代区域聚集了大量垃圾对象,垃圾回收线程频繁回收那些无用的垃圾对象,最终可能还达不到回收的理想效果,那么这个时候你不得不分析堆里面被大量占据的对象,看看是不是程序代码问题导致老年代被堆满。 像作者文章开始出的这个案例,作者经过上述步骤分析后,发现是程序代码问题导致有大量对象进入老年代。(作者在应用中引入了一个java8的Nashorn组件,该组件的构建过程极其复杂,内部会创建很多个对象实例,因为作者的业务流量还是比较大的,每秒2000+QPS),机器也是够的大概10台(每台4C8G),分析发现内存中大量充斥着Nashorn相关代码,经过深入分析,其实这个Nashorn实例全局单例就可以了,不需要每次方法执行都构建一个实例,因为构建过程复杂且多对象,流量一高势必最终导致应用发生内存溢出等异常。

总结

OK,文章即将进入尾声,让我们一起来做个总结: 首先作者以一个自己亲身经历的GC故障为背景,跟大家介绍了一下什么是CMSGC太频繁这个术语,相信小伙伴如果下次自己碰到类似这种告警,能明白其含义。 其次作者也介绍了CMSGC太频繁一般作用的区域是老年代内存区域,有几种情况对象会从年轻代或直接进入老年代,以及老年代什么情况下会触发其垃圾回收动作。 然后作者也给大家介绍了该如何一步一步通过工具MAT去排查在堆文件里的问题对象。

最后我也总结了应该如何避免发生GC太频繁甚至OOM这类异常。如果程序代码一切正常,纯粹是瞬时流量太高才导致的GC动作加快,可以考虑临时增加服务器实例,分摊流量。不过很多问题可能都是程序员代码书写不正确才导致的,这个时候你应该首先找出问题对象,然后找出频繁创建对象的代码块。

本文完!

写到最后

作为996的程序员,写这篇文章基本都是利用工作日下班时间和周六周日双休的时间才最终成稿,比较不易。

*[En]*

**

关注我

*[En]*

**

公众号

“喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?
*[En]*

**

公众号内 回复关键字电子书”下载pdf格式的电子书籍(JAVAEE、Spring、JVM、并发编程、Mysql、Linux、kafka、分布式等)、”开发手册”获取阿里开发手册2本、”面试”获取面试PDF资料。

Original: https://www.cnblogs.com/StarbucksBoy/p/17005680.html
Author: StarbucksBoy
Title: “喜提”一个P2级故障—CMSGC太频繁,你知道这是什么鬼?

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/287301/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • <五>基于CAS操作的atomic原子类型

    C++11多线程类库中提供了include包含了很多原子类型 原子操作若干汇编指令具有读-修改-写类型,也就是说它们访问存储器单元两次,第一次读原值,第二次写新值 假定运行在两个c…

    精选 2022年12月13日
    051
  • FTP客户端c代码功能实现

    现在市面上有很多免费的FTP软件:如FileZilla ,那如果想自己在代码中实现与ftp服务器的上传下载文件该如何实现那? 本质上ftp协议就是TCP基础上建立的一种协议,具体如…

    精选 2023年2月23日
    015
  • 【Linux】/proc/stat解析

    1.1 CPU时间 cpu指标 含义user 用户态时间nice 用户态时间(低优先级,nice>0)system 内核态时间idle 空闲时间iowait I/O等待时间i…

    精选 2022年12月3日
    084
  • 最新最全面的Spring详解(五)——事务管理

    前言 本文为 【Spring】事务管理 相关知识,下边将对 Spring&#x6846;&#x67B6;&#x4E8B;&#x52A1;&#…

    精选 2022年11月24日
    078
  • PyCharm发布了新版,支持最新Python3.11和PyScript框架

    通常而言,使用新潮的或者快速发展的技术,可能会挺有挑战性,你可能得经常阅读文档,才能熟悉新的语法、API 和协议。 PyCharm 2022.2 通过提供对 Python 3.11…

    精选 2023年1月3日
    055
  • 鸿蒙系统应用开发之开发准备

    Hi,欢迎大家在有空的时候做客【江涛学编程】,这里是2023年的第10篇原创文章,今天我们来聊一聊鸿蒙系统应用开发之前,要做什么准备工作,如下图所示,我们要做的就是安装DevEco…

    精选 2023年1月13日
    052
  • 《Terraform101从入门到实践》Functions函数

    Terraform为了让大家在表达式上可以更加灵活方便地进行计算,提供了大量的内置函数(Function)。目前并不支持自定义函数,只能使用Terraform自带的。使用函数的格式…

    精选 2023年2月12日
    012
  • NET近期面试总结和面试题

    一、面试总结 避坑:深圳龙岗李朗YH股份会鸽offer 因为offer被鸽重新找工作,从8号开始面试到12号(11家公司),整体感觉面试难度不大,就是很多公司都是走流程,并不是真的…

    精选 2023年2月19日
    042
  • 「降本」有可能,「增效」不确定

    降本手段一招鲜,增效方法吃遍天; 01 互联网行业里; 降低成本有很多奇怪的策略,但手段出奇地一致;提高效率的方法多种多样,手段更是花哨。 [En] There are many …

    精选 2023年3月8日
    04
  • OpenCV实战——使用MSER提取特征区域

    OpenCV实战——使用MSER提取特征区域 * – 0. 前言 – 1. MSER 算法原理 – 2. 实现 MSER 算法 – …

    精选 2023年3月2日
    015
  • 如何让程序更健壮「GitHub热点速览」

    对于 ML 模型训练而言,好的数据集能让结果更健壮,cleanlab 是一个降低数据噪音,及时帮你修正数据集错误的工具。好的工具能让你的结果更完美。同样的,RedTeam-Tool…

    精选 2023年2月16日
    014
  • SpringBoot+WebSocket实时监控异常

    本文已经收录到Github仓库,该仓库包含 计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分…

    精选 2023年2月2日
    014
  • 用ChatGPT生成Excel公式,太方便了

    ChatGPT 自去年 11 月 30 日 OpenAI 重磅推出以来,这款 AI 聊天机器人迅速成为 AI 界的「当红炸子鸡」。一经发布,不少网友更是痴迷到通宵熬夜和它对话聊天,…

    精选 2023年2月26日
    024
  • MyBatis的使用八(动态SQL)

    本主要讲述mybatis处理动态sql语句 前端展示的数据表格中,查询条件可能不止一个,如何将用户输入的多个查询条件,拼接到sql语句中呢? DynamicMapper接口声明如下…

    精选 2023年2月5日
    011
  • 微信小程序的全局弹窗以及全局实例

    全局组件 微信小程序组件关系中,父组件使用子组件需要在父组件 index.json中引入子组件,然后在父组件页面中使用,这种组件的对应状态是一对一的,一个组件对应一个页面。如果有一…

    精选 2023年2月23日
    014
  • 疫情可视化part3

    前言 之前在part2中说的添加自定义主题配色已经开发完成了,除此之外我还添加了一些的3d特效。 前期文章 这是part1的文章:https://www.cnblogs.com/x…

    精选 2022年12月2日
    061
最近整理资源【免费获取】:   👉 程序员最新必读书单  | 👏 互联网各方向面试题下载 | ✌️计算机核心资源汇总