014 Linux 线上高频使用以及面试高频问题——如何查找大文件并安全的清除?

014 Linux 线上高频使用以及面试高频问题——如何查找大文件并安全的清除?

1 案例描述?

  1. 服务线上环境,会出现一些磁盘使用率过高而告警的情况,可能是某个日志文件过大,没有及时清理回收,如何找到大目录和大文件?
  2. 如何安全的清理大文件?
  3. 如何使占用的磁盘空间快速释放掉?

2 命令一(目录统计排序最佳命令)

(这里以当前目录 ./ 为例,统计 top5)

【du -k –max-depth=1 ./ |sort -nr|head -n5】

[root@test-001 /]# du -k --max-depth=1 ./ |sort -nr|head -n5
137450839518    ./
6785876 ./data
2182577 ./usr
1830341 ./home
446856  ./var

//du -k # 显示目录或文件大小时,以 kB 为单位;
//du --max-depth=1 [目录] # 只显示指定目录下第一层目录(不含单个文件)的大小;
//sort -nr # 以行为单位,根据数字大小从大到小排序;
//head -n5 # 显示内容的开头 5 行,这里显示就是 top5 内容;

3 命令二(最实用,目录和文件一起统计排序)

(这里以当前目录 ./ 为例,统计 top5)

(1)命令详情和说明

【du -sk * ./ | sort -nr | head -n5 | awk -F’\t’ ‘{if(1024 * 1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024 * 1024) {printf “%.2fT\t\t %s\n”, $1/(1024 * 1024 * 1024), $2} else if(1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024) {printf “%.2fG\t\t %s\n”, $1/(1024 * 1024), $2} else if (1024 * 1024 > $1 && $1 >= 1024) {printf “%.2fM\t\t %s\n”, $1/1024, $2} else {printf “%sk\t\t %s\n”, $1, $2}}’ 】

[root@test-001 /]# du -sk * ./ | sort -nr | head -n5 | awk -F'\t' '{if(1024 * 1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024 * 1024) {printf "%.2fT\t\t %s\n", $1/(1024 * 1024 * 1024), $2} else if(1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024) {printf "%.2fG\t\t %s\n", $1/(1024 * 1024), $2} else if (1024 * 1024 > $1 && $1 >= 1024) {printf "%.2fM\t\t %s\n", $1/1024, $2} else {printf "%sk\t\t %s\n", $1, $2}}'
7.13G        data
2.17G        usr
1.75G        home
447.04M      var
408.50M      run
//du -sk * # 显示当前目录下每个文件夹和文件的大小以KB为单位(最常用),s表示汇总,k是以KB为统计单位;
//./ #当前目录下
//sort -nr # 以行为单位,根据数字大小从大到小排序;
//awk -F'\t'# 以水平制表符进行分割,后面的程序就是进行换算单位,格式化输出成易懂的形式;

(2)du、head、sort、awk 详细说明参考已有文章附录

(3)Linux 中 printf 命令使用参考

// Linux 中 printf 命令使用参考
// https://www.linuxprobe.com/linux-printf-example.html

'{
    if(1024 * 1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024 * 1024)
    {
        printf "%.2fT\t\t %s\n", $1/(1024 * 1024 * 1024), $2
    }
    else if(1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024)
    {
        printf "%.2fG\t\t %s\n", $1/(1024 * 1024), $2
    }
    else if (1024 * 1024 > $1 && $1 >= 1024)
    {
        printf "%.2fM\t\t %s\n", $1/1024, $2
    }
    else
    {
        printf "%sk\t\t %s\n", $1, $2
    }
}'

4 如何安全使用 rm 命令删除文件?

(1)rm 命令有哪些坑?

  • rm -rf / # 这个命令绝逼不能操作🙅,删除根目录下的文件,就是系统中的所有文件都要被删除。如果是线上服务机器操作了,那就悲剧了!误操作了怎么办?赶快ctrl+c、ctrl+z 能保住多少是多少吧。
  • rm -rf / home/apps/logs/ # 这也是个天坑命令!目的是删除日志文。结果书写时”多了一个空格”的 bug,看懂了么?这就变成了 [rm -rf /] !
  • 埋藏隐患的日志清理 shell 脚本!脚本关键内容如下。
cd ${log_path}
rm -rf *

目标是转到日志目录并删除所有日志。隐患:当目录不存在时,悲剧就发生了!

[En]

The goal is to go to the log directory and delete all the logs. Hidden trouble: when the directory does not exist, the tragedy occurs!

(2)如何安全使用 rm 命令?

  • 在生产环境把 [rm -rf] 命令替换为 [mv],再写个脚本程序定期清理,模拟回收站的功能。
  • 把日志清理 shell 脚本,改用逻辑与 && 进行连接。
cd ${log_path}
rm -rf *

改用逻辑与 && 进行连接,合并成一句,前半句逻辑失败,后半句命令不执行:

cd ${log_path} && rm -rf *

完整的日志清理 shell 脚本如下:
 shell</p> <h1>!/bin/bash</h1> <p>base_home="/home/apps" log_path=${base_home}/logs cd ${log_path} && rm -rf *

5 磁盘使用率报警,却查不到具体的大文件?

(1)问题情景

  • 1 磁盘使用率监控报警,进入机器可以 (df -h) 命令看到磁盘使用率确实超过了报警阀值。
  • 2 使用命令查看大目录,并进入到目录下 【du -sk * ./ | sort -nr | head -n5 | awk -F’\t’ ‘{if(1024 * 1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024 * 1024) {printf “%.2fT\t\t %s\n”, $1/(1024 * 1024 * 1024), $2} else if(1024 * 1024 * 1024 > $1 && $1 >= 1024 * 1024) {printf “%.2fG\t\t %s\n”, $1/(1024 * 1024), $2} else if (1024 * 1024 > $1 && $1 >= 1024) {printf “%.2fM\t\t %s\n”, $1/1024, $2} else {printf “%sk\t\t %s\n”, $1, $2}}’ 】
  • 3 依然没找到大文件,该怎么办呢?

(2)排查思路

  • 1 思考:是不是有文件已经被删除了,但进程还在占用该文件,进程未结束,空间未释放?
  • 2 使用「lsof |grep -i deleted」命令查看,能查看到已删除,空间没有释放的文件,包含文件大小,进程和服务名等信息。

014 Linux 线上高频使用以及面试高频问题——如何查找大文件并安全的清除?

lsof(List Open Files) 用于查看进程打开的文件,打开文件的进程,进程打开的端口(TCP、UDP),找回/恢复删除的文件。是十分方便的系统监视工具,因为 lsof 命令需要访问核心内存和各种文件,所以需要root 用户权限执行。

(3)占用磁盘空间释放

重启下进程所指的服务,占用的磁盘空间即可释放掉。线上生产操作一定要谨慎,不要直接 kill 掉进程,评估看是否有进程服务自身的重启名命令,以及评估服务是否可以重启。

(4)备注附录

  • 1 当一个文件正在被一个进程使用时,用户删除此文件,文件只会从目录结构中删除,但并没有从磁盘删除。
  • 2 当使用这个文件的进程结束后,文件才会真正的从磁盘删除,释放占有的空间。Linux 打开一个文件的时候,内核会为每个进程在 /proc/ 『/proc/{nnnn}/fd/文件夹({nnnn} 为 pid)』建立一个以其 pid 为名的文件夹用来保存进程的相关信息,而其子文件夹 fd 保存的是该进程打开的全部文件的 fd(fd:file descriptor)。
  • 3 Ctrl + C 和 Ctrl + Z都是中断命令。Ctrl + C 是强制中断程序的执行,进程已经终止;Ctrl + Z 是将任务中止(暂停的意思),他仍然在进程中他只是维持挂起的状态。

6 生产环境常用的安全清理大文件命令

  1. 生产环境安全清理大文件的诉求是什么?既要不影响服务的正常运行,又要让磁盘占用的空间快速释放掉(让文件消失掉不是我们的目的,我们的目的是快速释放掉占用的磁盘空间)。
  2. 不要使用 「rm -rf xxx.log」;常用 「echo “” > xxx.log」。
  3. 这里假设 xxx.log 为大文件,如这个 xxx.log 有几十个 GB,「echo “” > xxx.log」是用一个 “” 内容覆盖原文件内容,使磁盘空间得到瞬间释放!

7 小结

  1. 总结了查找大目录以及大文件的常用组合命令(涉及到 du、head、sort、awk 等命令);
  2. 以及如何安全使用 rm 命令;
  3. 还有在磁盘使用率报警,却查不到具体的大文件的情况如何排查;
  4. 最后还提到了常用的 echo 命令对原文件进行覆盖以达到使磁盘空间占用得到瞬间释放。

「不甩锅的码农」原创,转载请注明来源,未经授权禁止商业用途!同名 GZH 请关注!

Original: https://www.cnblogs.com/bilahepan/p/15889621.html
Author: 不甩锅的码农
Title: 014 Linux 线上高频使用以及面试高频问题——如何查找大文件并安全的清除?

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/524096/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 多态

    一.相关定义 1-1 多态 多态是同一个行为具有多个不同表现形式或形态的能力。同一个形参类型为基类的接口,使用不同的子类的实例可以执行不同操作。 1-2 绑定 绑定:将一个方法调用…

    Linux 2023年6月8日
    085
  • cpp创建对象的多种形式

    1 使用非默认构造函数来创建对象的几种形式 Person person = Person("binny1", 26); 这种方式创建对象,C++标准允许编译器使…

    Linux 2023年6月13日
    0178
  • JavaScript闭包

    <!doctype html> <html lang="en"> <head> <title>&#x95…

    Linux 2023年6月13日
    083
  • Redis

    Redis原创笑笑师弟 最后发布于2018-12-21 14:17:59 阅读数 1780 收藏展开目录 redis简介 redis功能 redis学习步骤 windows系统下的…

    Linux 2023年5月28日
    0107
  • Nginx几种负载均衡方式介绍

    Nginx几种负载均衡方式介绍 前言 负载均衡就是Nginx将请求分摊到不同的服务器中,保证服务的可用性,缓解服务压力,保证服务的响应速度,即使某一个应用服务不可用,也可以保证业务…

    Linux 2023年6月6日
    0116
  • Java语言高级(第六部分)函数式接口 Stream流、方法引用 ->(个人学习记录笔记)

    第一章 函数式接口 1.1 概念 函数式接口在Java中是指: 有且仅有一个抽象方法的接口。 函数式接口,即适用于函数式编程场景的接口。而Java中的函数式编程体现就是Lambda…

    Linux 2023年6月8日
    089
  • [云原生]Kubernetes-实战入门(第4章)

    一、Namespace 二、Pod 三、Label 四、Deployment 五、Service 参考: Kubernetes(K8S) 入门进阶实战完整教程,黑马程序员K8S全套…

    Linux 2023年6月13日
    0116
  • linux之ifconfig查看ip

    ifconfig 用于显示或设置网络设备。 设置网络设备的状态和信息 [En] set the status and information of network devices*…

    Linux 2023年5月27日
    0133
  • RedisInsight 安装与使用(Redis 监控工具)【转】

    一、RedisInsight 简介 RedisInsight 是一个直观高效的 Redis GUI 管理工具,它可以对 Redis 的内存、连接数、命中率以及正常运行时间进行监控,…

    Linux 2023年5月28日
    095
  • Linux常用系统管理命令详解

    ps ps命令用于查看系统中的进程状态。 命令格式: ps [&#x53C2;&#x6570;] 命令参数说明: 参数 作用 -a 显示现行终端机下的所有程序,包括…

    Linux 2023年5月27日
    0114
  • Apache Shiro反序列化漏洞(Shiro550)

    1.漏洞原理: Shiro 是 Java 的一个安全框架,执行身份验证、授权、密码、会话管理 shiro默认使用了CookieRememberMeManager,其处理cookie…

    Linux 2023年6月13日
    075
  • MySQL — 索引

    索引(Index)是高效获取数据的数据结构,就像书的目录,提高检索数据的效率。 优点:提高数据检索效率,降低数据库的 IO 成本;通过索引列对数据进行排序,降低数据排序的成本,降低…

    Linux 2023年6月8日
    075
  • JAVA设计模式-原型模式

    JAVA设计模式-原型模式 介绍 原型模式是一种创建型模式,用于创建重复的对象,并且保证性能。原型模式创建的对象是由原型对象自身创建的,是原型对象的一个克隆,和原型对象具有相同的结…

    Linux 2023年6月6日
    0102
  • postgres 错误duplicate key value violates unique constraint 解决方案

    把当前最大的id做为当前的id自增起始数运行下面的SQL就行了 SELECT setval(‘tablename_id_seq’, (SELECT MAX(id) FROM tab…

    Linux 2023年6月14日
    0108
  • ssl证书的选型,你知道多少?

    介绍 目前互联网常用的HTTP协议是非常不安全的明文传输协议。而SSL协议及其继任者TLS协议,是一种实现网络通信加密的安全协议,可在客户端(浏览器)和服务器端(网站)之间建立一条…

    Linux 2023年6月6日
    082
  • Linux 宿主机故障虚拟机重启rhel6网卡报已使用故障&rhel7网卡无法启动

    宿主机故障虚拟机重启rhel6 网卡 报已使用故障 &rhel7 网卡无法启动 宿主机故障虚拟机重启rhel6网卡 报已使用 一、故障分析 1 、故障现象:RHEL6 虚拟…

    Linux 2023年6月13日
    096
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球