Redis故障案例(一)-特定key批量丢失

作者:RogerZhuo
来源:DBACoder

TroubleShooting-排障是DBA一项重要技能,通过故障表现的症状,先让业务高速恢复止损,同一时候分析故障的根因(rootCause),给出解决方式并从根本上修复故障。最后总结从产品或流程上怎么规避同类型故障再次发生。

DBA排障非常像医生治病、刑警破案。

医生通过了解病人病情症状(故障症状),先让病人病情缓解(服务止损)相似止痛,同一时候分析病灶(故障根因),给出可行的治疗方案(故障解决方式),病人全然恢复;最后给出医疗建议怎样预防病情或避免恶化(故障规避);当然还有现多的相似急救(紧急故障-7位数级损失)、会诊、不治、AI医疗(AI故障根因分析)、医疗事故(背锅);事实上非常多相通之处。

刑警通过真凶(故障根因)留下的犯罪现场(故障症状)。根据罗卡定律,各种技术分析和寻找证据,终于找出真凶和证据。(段子非常多。先回到主题)

在Redis早期的运维过程中。也遇过不少Redis故障。现总结当中几个有意思的案例,希望对刚開始用Redis的DB A同学有所帮助。

故障因与业务、故障场景结合较密切(脱敏)。笔者尽量提炼成技术和还原现场。故障系列文章包含下面几部分:

故障背景:主要交待技术和故障背景[可选]。

故障描写叙述:故障的简单描写叙述、根本原因和影响。

故障监控告警:故障相关的监控告警信息;

故障分析:文章核心 提供相似故障的分析思路、和技术点;

故障阶段性总结:文章核心 总结相似故障的通用性预防;

本文是Redis故障案例(一)关于一次Redis特定key丢失排查分析。

1 故障背景

A业务有一个3分片的Redis Cluster缓存集群,会定期生成数据写入Redis;某一天。A业务的研发project师(下文简称RD)突然找到DBA,非常激动地说:”我们Redis集群突然掉非常多key…” ,然后故事就開始了….

RD: “我们Redis集群中,以”t_list:”前缀的90000多key今早发现都掉了,其它key还在,是不是DBA有清理操作啊?”
DBA: “没有维护性操作(一脸懵B和无辜),先止损,把Key从Primary store中导入Redis;”
RD: “已经从MySQL把key导入到Redis,如今业务功能恢复。影响非常小。

但请帮忙追查原因。”
DBA: “这部分key确认近期一次还在是什么时候?

然后最早发现丢失是在什么时候?” 备注:DBA開始和当事人了解案发时间,为排查问题提供根据。
RD: “昨晚20:30前key肯定还在,最早发现key不见是今早9:20同事发现新測试功能有异常” 备注:灰度功能
DBA: “好的,我先分析一下原因,有结果了通知你;定位问题前,你也关注一下服务。避免问题二次发生”。

然后RD就下楼了,DBA扣上他的几十元买来的boss耳机。開始自言自语Troubleshooting.

2 故障描写叙述

因RD1同学为重写t_list的90000多个KEY, 通过keys t_list*命令获取并删除。但未及时把key新内容重到redis中;使得RD2同学以为数据灵异丢失。

但由于是灰度功能使用数据。服务影响范围较小。

3 故障告警

1 业务告警缺失。见故障总结
2 Redis側无法监控此类告警

4 故障分析

通过RD提供的线索:

  • 特定t_list:前缀90000个List元素丢失;
  • 数据丢失时间范围前日20:30~9:20之间(案发时间段。分析各种监控范围)。

通过故障症状初步分析,故障可能的根因:

  • 执行了flushall/flushdb命令删除所有key,其它key是后来写入的。造成了仅仅丢失t_list的假象
  • 这90000个List元素因运行LPOP/RPOP,导致key被删除的现象;(List中元素被所有pop完后,list相当于被删除了)
  • 这部分key因设置了TTL。在此期间内所有过期,被redis自己主动删除;
  • 这部分key因LRU淘汰。被redis所有驱赶淘汰;
  • 程序BUG或人为删除导致。

每一个可能故障根因排查分析:

  • 排除flushall/flushdb导致。因此集群两个命令是被rename了,同一时候观察集群监控dbsize为了跌为0的区段; info Commandstats中没cmdstat_flushdb、cmdstat_flushall输出都可确认,不是flush造成的。
  • 排队List pop操作导致的;通过分析案发时间段内的监控图,并未发现cmdstat_rpop和cmdstat_lpop输出;
  • 排除过期删除导致; 分析监控,近期24小时expired_keys监控指标值基本为0
  • 排除LRU淘汰导致;本集群实例未设置淘汰,maxmemory-policy为noeviction;分析监控,近期24小时evicted_keys监控指标值都是0。
  • 确认是程序BUG或人为删除导致;最后定位是RD1同学。为重写这部分key。通过脚本keys t_list:*获取,并通过del命令删除。具体分析步骤例如以下:

通过分析redis监控单个分片key个数。发现22:00到22:40时间段内,key个数下降约30000个;此集群共3个数据分片,且每一个分片slots分配均匀,三个分片同一时候段key个数下降约90000个;和故障丢失key个数相符。

Redis故障案例(一)-特定key批量丢失

图1. 数据key个数监控图

再分析DEL的操作。22:00~22:40时间段内,每一个Redis的每秒del操作12次,持续40min; 约30000个del操作; 3个分片。共运行约90000次DEL操作

Redis故障案例(一)-特定key批量丢失

图2. 删除操作DEL的每秒请求数监控图

查看slowlog监控。2015-12-03 22:01:01 时间点,运行KEYS “tlist*” 获取所有key的前缀, 目的应该是运行后面的DEL操作

Redis故障案例(一)-特定key批量丢失

图3. slowlog分析图

5 故障阶段性总结和预防

  • 禁用keys命令(程序历史原因)。DBA提供删除特定key的自助化服务;尽量避免RD直接操作Redis集群数据,通过review的流程降低误操作的发生。
  • 业务方加强监控告警,业务异常能及时发现。

非技术类总结:

  • 数据是公司重要的资产和生命线。DBA除了本职工作做好数据的安全和可靠外;实际工作也有非常多相似的”数据丢失”场景,怎么从技术层面不做背锅侠。
  • 做好完好的监控,是精细化运营管理和自我保护的前提。

-END-

推荐订阅原文作者公众号 DBACoder

Redis故障案例(一)-特定key批量丢失

Original: https://www.cnblogs.com/ljbguanli/p/9897761.html
Author: ljbguanli
Title: Redis故障案例(一)-特定key批量丢失

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/529188/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • .NET Core 3.0, 发布将于今晚开始!

    期待已久的.NET Core 3.0即将发布! .NET Core 3.0在.NET Conf上发布。大约还有9个多小时后,.NET Conf开始启动。 第1天-9月23日 9:0…

    Linux 2023年6月7日
    082
  • Ubuntu Typora安装

    Ubuntn Typora安装 现在好像开始收费了,网上给的方法都是从官网下载的,感觉迟早不能用,因为要钱了 官网好像给的安装方法如下,可是好像不太好用 or run: sudo …

    Linux 2023年6月14日
    096
  • 【建议收藏】你知道数据库是怎么运行的吗?

    404. 抱歉,您访问的资源不存在。 可能是网址有误,或者对应的内容被删除,或者处于私有状态。 代码改变世界,联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

    Linux 2023年6月11日
    078
  • redisson中的看门狗机制总结

    1:普通的Redis分布式锁的缺陷我们在网上看到的redis分布式锁的工具方法,大都满足互斥、防止死锁的特性,有些工具方法会满足可重入特性。如果只满足上述3种特性会有哪些隐患呢?r…

    Linux 2023年5月28日
    0131
  • Docker Manager for Kubernetes

    一、Kubernetes介绍 Kubernets是Google开源的容器集群系统,是基于Docker构建一个容器的调度服务,提供资源调度,均衡容灾,服务注册,动态伸缩等功能套件; …

    Linux 2023年6月14日
    082
  • C++ 多线程按顺序执行函数

    404. 抱歉,您访问的资源不存在。 可能是网址有误,或者对应的内容被删除,或者处于私有状态。 代码改变世界,联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

    Linux 2023年6月11日
    086
  • 数据库常用函数

    一、数学函数ABS(x) 返回x的绝对值BIN(x) 返回x的二进制(OCT返回八进制,HEX返回十六进制)CEILING(x) 返回大于x的最小整数值EXP(x) 返回值e(自然…

    Linux 2023年6月13日
    098
  • 初学ajax

    ajax出现无疑改变了web应用:从开始的整体页面的刷新到局部页面的数据显示,不用刷新页面就可以与服务器交互; 1 function ajaxPost(data){ 2 3 var…

    Linux 2023年6月14日
    082
  • 深入Go Map的使用技巧

    原文链接:https://www.zhoubotong.site/post/60.html之前写过一篇文章,Go map定义的几种方式以及修改技巧,今天发现还可以深入探讨下开发中容…

    Linux 2023年6月6日
    0118
  • Apache JMeter安装及使用

    Apache JMeter是Apache组织开发的基于Java的压力测试工具。用于对软件做压力测试,它最初被设计用于Web应用测试,但后来扩展到其他测试领域。 它可以用于测试静态和…

    Linux 2023年6月8日
    0111
  • linux系统编码修改

    查看当前系统默认采用的字符集locale 查看系统当前编码echo $LANG如果输出为:en_US.UTF-8 英文zh_CN.UTF-8 中文 查看系统是否安装中文字符集loc…

    Linux 2023年6月6日
    093
  • CentOS 7 新系统 手动配置网络 简要步骤

    一、配置网卡文件 1.修改网卡文件进入网卡配置文件目录 2.查看网卡文件 CentOS中网卡文件一般为 ifcfg-ens* 这样的文件,多块网卡会有多个类似文件 3.编辑网卡文件…

    Linux 2023年6月8日
    082
  • 大华海康NVR录像JAVA下载及WEB播放

    近期在处理一个将NVR录像机上的录像下载到服务器并通过浏览器播放的需求。 梳理记录下过程,做个备忘,同时遇到的一些细节问题解决,也供需要的同学参考。 需求比较简单,就是把指定时间段…

    Linux 2023年6月13日
    0148
  • css中*{}和*html,body{}的区别

    css里面定义*{padding:0px;margin: 0px;} 相当于选择器,代表html所有的元素,包括html标签、body标签等; {}大括号里面写入需要给定的属性和属…

    Linux 2023年6月13日
    089
  • Ubuntu下安装多个JDK,并设置其中一个为默认JDK

    由于使用需要,要在机器上同时安装OpenJDK 8和11,并将8设置为默认JDK 首先安装OpenJDK sudo apt-get install openjdk-8-jdk su…

    Linux 2023年6月6日
    099
  • 【转】redis 消息队列发布订阅模式spring boot实现

    /*redis 消息处理器/ @Component public class MessageReceiver { /*接收消息的方法/ public void receiveMes…

    Linux 2023年5月28日
    095
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球