记一次Linux server偶发CPU飙升问题的跟进与解决

2023年6月21日下午8:33 • 技术杂谈 • 阅读 84

进入6月后，随着一个主要功能版本api的上线，服务端的QPS翻了一倍，平时服务器的CPU使用稳定在30%上下，高峰期则在60%上下，但是偶尔会有单台机器出现持续数分钟突然飙到90%以上，导致大量api响应缓慢超过客户端等待时间，触发其主动断开连接产生大量nginx499。

问题期间器资源情况

仔细查看问题期间的zabbix监控数据，发现90%的CPU占用中有10%上下是sys time, 5%上下是softirq time，两者相加可占到接近20%, interrupt和context switch数由之前的10k/s飙升至20k+/s。

定位kafka log发送代码

首先猜测就是某个新加功能实现有bug，可能造成长时间未执行完成，多个类似请求长期占用CPU而后又被切换为其他线程，反复在这些耗时请求中来回切换却没法完成任意一个请求，并造成后续请求在队列中排队等待，导致大量请求超时响应。
直接入手分析定位新增的某个复杂功能接口，确认不存在死循环的可能，怀疑是接口太耗性能长期占用CPU导致后续请求来不及处理最终连锁反应导致雪崩。
仔细分析其实现，发现总共会触发30+次kafka log发送，之前一直认为使用异步批量发送kafka log的情况下，多发几次log应该不会存在什么问题，不过这里一个请求触发30+次 kafka log发送确实有点太多了。
本着怀疑的精神决定实际验证一番kafka log发送耗时，结果发现每次kafka调用耗时居然在0.2-2ms之间波动，这相当于该复杂接口功能请求光是发送kafka消息就需要6-60ms时间，与之前认为应该很快的假设不符！
进一步分析原因，发现原来沿用的kafka producer初始化配置有大坑，其设置了batch_size=20之前一直理解为是每20条log触发一次实际发送，结果起始batch_size的单位是字节，其表示的是每满20字节触发一次实际发送==！所以实际效果是每次kafka log send都会触发实际发送。通过修改batch_size为64k并设置linger_ms为500ms，验证kafka log一边为批量发送模式后，再次测试kafka消息单次调用耗时变为了

尝试扩容解决

由于刚上了一个大版本功能，客户端确实新增了很多api调用，随着新版本覆盖用户数逐步升高，单机负载逐步升高，于是考虑再扩个容看能否解决问题，在某天下午快速扩容一台机器后，晚上又出现了该问题，该简单方案宣告失败。

定位Linux内存水位

在前两个方案尝试解决问题失败后，开始细究一下每5分钟打印一次的机器top快照，仔细硬瞅之下还真发现点端倪：查看了单台机器过去近10次CPU飙涨时段的指标，发现free内存一般在CPU飙涨前剩余不到200M，而CPU恢复正常后free内存一般都剩余>1G，这个看上去有点不同寻常。进一步按图索骥观察到kswapd_low_wmark_hit_quickly取值每天增长上千次，直觉上感觉是偏高的。
难道问题是free内存不足、回收引起的？然而zabbix监控上显示的可用内存一直都是>5G，理论上不应该存在不足才对，进一步探究了解到了free内存回收与内存水位的概念。

Linux的设计思路是尽量多的使用空闲内存，除了保留一定量的真正空闲立马可用的内存作为free内存保证系统正常运转外，其他空闲内存会尽量用于系统缓存(buffer+cache)，当free内存不足时则从buffer、cache中回收为free内存即可，而一般我们说linux的可用内存都是指available内存，其实际包括free+可回收的buffer+cache内存，这也是zabbix监控中可用内存使用的指标。
那实际应该保留多少free内存以及何时触发回收free内存呢？这里就需要引入linux的内存水位(watermark)概念了，具体可参考这篇文章–Linux内核调整watermark_scale_factor以缓解direct reclaim。简单来说就是linux设置了min/low/high三个内存水位，对应free内存在不同水位线的行为如下：

free > high，内存充足，什么都不用做
free内存由>high下降至

watermark[WMARK_MIN] = (min_free_kbytes/4) * zone.pages/zone.allpages
watermark[WMARK_LOW] = 5/4watermark[WMARK_MIN]
watermark[WMARK_HIGH] = 3/2*watermark[WMARK_MIN]

min水位直接由min_free_kbytes决定(后面的zone.pages/zone.allpages表示不同内存区按占总物理内存的比例均分对应水位值)，而后min/low/high之间的差值则=1/4low，所以在一台8G(7969M)的线上机器上min/low/high取值默认为：

Node 0, zone      DMA
  per-node stats
      nr_inactive_anon 21704
      nr_active_anon 171130
      nr_inactive_file 1490263
      nr_active_file 153139
--
Node 0, zone    DMA32
  pages free     58451
        min      6322
        low      7902
        high     9482
   node_scanned  0
--
Node 0, zone   Normal
  pages free     13169
        min      10540
        low      13175
        high     15810
   node_scanned  0

通过watermark_scale_factor参数将默认值10/10000调整为200/10000，内存水位取值变为：

Node 0, zone      DMA
  per-node stats
      nr_inactive_anon 21910
      nr_active_anon 278859
      nr_inactive_file 1366921
      nr_active_file 150022
--
Node 0, zone    DMA32
  pages free     56340
        min      6342
        low      21660
        high     36978
   node_scanned  0
--
Node 0, zone   Normal
  pages free     35915
        min      10520
        low      35926
        high     61332
   node_scanned  0

Normal zone内存水位min/low/high差值变为:low-min=99MB，调整完后对单台机器逐步放量至近期峰值的150%流量测试，未再出现该问题，至今2周过去了，线上机器未再出现该问题。
另一个验证水位调整效果的数据是查看并自增kswapd_low_wmark_hit_quickly值变化值，在调整水位值之前，每天kswapd_low_wmark_hit_quickly新增在1000左右，调整后变为100次，降低了一个数量级。
转载请注明出处，原文地址： https://www.cnblogs.com/AcAc-t/p/linux_watermark_and_kafka_batch_send.html

Original: https://www.cnblogs.com/AcAc-t/p/linux_watermark_and_kafka_batch_send.html
Author: 及时
Title: 记一次Linux server偶发CPU飙升问题的跟进与解决

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/644175/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

QT布局管理器

QT主要布局管理器分类 QHBoxLayout（水平布局）把子窗口从左到右排列在一个水平行上。运行结果： QVBoxLayout（垂直布局）把子窗口从上到下排列在一个垂直列上…

技术杂谈 2023年6月1日
0076
【软考】十五至尊图

下图是软考的十大知识领域与五个过程组，简称：十五至尊图上图中除了十五至尊图的内容，其余的是辅助口诀，帮助记忆该图。我个人将十五至尊图放到Excel中，每天花时间默写一遍十五至尊图…

技术杂谈 2023年5月31日
0095
自底向上：从可变对象、不可变对象到深浅拷贝再到数据结构

一、不可变对象和可变对象** Python 在 heap 中分配的对象分成两类：可变对象和不可变对象。所谓可变对象是指，对象的内容是可变的，例如 list。而不可变的对象则相反，表…

技术杂谈 2023年7月25日
0078
Spark学习(3)SparkSQL

什么事sparkSQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用, 它是将Spark…

技术杂谈 2023年7月24日
0072
InnoSetup能够实现“安装细节描述”界面吗？

QUOTE( Example_Test.iss ) // 脚本使用了增强版脚本编辑器 build 091218:Beta2// 编译器版本为 5.3.6.ee1 [Setup]A…

技术杂谈 2023年5月31日
0065
antd table之disabled的复选框被选中了？

使用antd 的table实现多选功能，具体功能如下： 复选框按需&a…

技术杂谈 2023年5月31日
0087
JAVA基本类型和包装类型

JAVA基本类型和包装类型前言 Java语言中的数据类型分为基本数据类型和引用类型，而我们进行Java开发的时候都听说过基本数据类型和包装类型，今天我们就来详细聊一聊Java中的…

技术杂谈 2023年6月21日
0084
BFD双向转发检测

BFD双向转发检测 https://www.ruijie.com.cn/fw/wt/36476/ BFD：(Bidirectional Forwarding Detection，双…

技术杂谈 2023年5月30日
0099
xmind使用汇总

XMind如何自由移动主体并自由拖动连接线到指定位置答案：菜单栏:修改-》允许自由位置 Original: https://www.cnblogs.com/youxin/p/16…

技术杂谈 2023年5月31日
0074
Dell raid 硬盘格式重装系统

这种情况大概率都是出现在dell笔记本上，因为dell 原厂默认使用的硬盘格式是raid on 硬盘模式，并非我们常用的AHCI硬盘模式。raid on 硬盘模式下，绝大部分PE也…

技术杂谈 2023年6月21日
00131
ArrayList扩容代码分析

ArrayList扩容机制是在面试中频繁出现的问题，平时了解的比较含糊，特此记录！注意：每次发生扩容，其容量扩充为原来的1.5倍左右 add方法 public boolean …

技术杂谈 2023年7月24日
0076
h3c v5系列和v7系列端口上的qos限速命令

v5系列 inbound：对端口接收报文进行速率限制outbound：对端口发送报文进行速率限制target-rate：对端口发送或接收报文限制的总速率，端口级别取值范围为 1～2…

技术杂谈 2023年5月31日
0088
【证券从业】金融基础知识-第六章证券投资基金01

注1：后续学习并整理到第八章，全书完结后再合并成一个笔记进行源文件分享注2：本章内容巨多，大约分为三篇文章记录消化 posted @2022-06-10 16:38 陈景中阅读…

技术杂谈 2023年7月10日
0065
b/s跟c/s http跟rpc协议区别

我想起了我刚工作的时候，第一次接触RPC协议，当时就很懵，我HTTP协议用的好好的，为什么还要用RPC协议？于是就到网上去搜。不少解释显得非常官方，我相信大家在各种平台上也都…

技术杂谈 2023年5月31日
0085
TOGAF认证课程，作为讲师我有话说

来IT帮认证的学员越来越多，每一期总有学员问我”周老师，为什么别人是4天，你这边是2天呢？”我想在这里统一说一下我对TOGAF认证课程的思考。一. 现状 …

技术杂谈 2023年5月31日
0071
一步一步编译最新版Apache Doris 0.15版本的详细过程

Apache Doris 于 2021 年 11 月 29 日迎来了 0.15.0 Release 版本的正式发布！有 99 位 Contributor 为 Apache Dori…

技术杂谈 2023年6月1日
0075

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

记一次Linux server偶发CPU飙升问题的跟进与解决

问题期间器资源情况

定位kafka log发送代码

尝试扩容解决

定位Linux内存水位

大家都在看