010 Linux 文本统计与去重 (wc 和 uniq)

010 Linux 文本统计与去重 (wc 和 uniq)

wc 命令一般是作为组合命令的一员与其他命令一同起到统计的作用。而一般情况下使用wc -l 命令较多。
uniq 可检查文本文件中重复出现的行,一般与 sort 命令结合使用。一起组合搭配使用完成统计、排序、去重。

1 wc 常用组合命令

  • ls | wc -l # 统计当前文件夹下,文件数量;
  • ls *.txt | wc -l # 统计当前文件夹下、第一层目录下所有的txt文件数量;
  • find . -maxdepth 1 -name ‘*.txt’ | wc -l # 统计当前文件夹、第一层目录下所有的txt文件数量;

2 wc 基本参数和格式

命令格式: wc [-clmw] [file …]

  1. -c # 统计字节数
  2. -l # 统计行数
  3. -w # 统计单词数
  4. -m # 统计字符数

3 wc命令示例

c、l、w、m 用例

read.text 内容如下:

!
hello china!

hello!

china!

010 Linux 文本统计与去重 (wc 和 uniq)

配合 grep 统计命中的目标行数用例

grep 正则匹配统计命中的目标行数,wc 命令在后面
grep -E  "(14:41(.)+internal-internal spend)"  002.info.log | wc -l

4 uniq 的常用参数以及配合 sor t应用示例

uniq 常用参数

uniq 可检查文本文件中重复出现的行,一般与 sort 命令结合使用。

  1. -c或–count 在每列旁边显示该行重复出现的次数;
  2. -d或–repeated 仅显示重复出现的行;
  3. -u或–unique 仅显示出一次的行;

info.log 内容如下:

111,222,333
111,222,333
333,444,555
xxx,yyy,zzz

cat info.log |sort -r

xxx,yyy,zzz
333,444,555
111,222,333
111,222,333

cat info.log |sort|uniq

111,222,333
333,444,555
xxx,yyy,zzz

cat info.log |sort -r|uniq -u

xxx,yyy,zzz
333,444,555

cat info.log |sort -r|uniq -d

111,222,333

cat info.log |sort -r|uniq -c

1 xxx,yyy,zzz
1 333,444,555
2 111,222,333

5 案例一(文本统计)

有一个 b. txt 文本(内容如下),要求将所有域名截取出来,并统计重复域名出现的次数。

http://www.baidu.com/index.html
https://www.atguigu.com/index.html
http://www.sina.com.cn/1024.html
https://www.atguigu.com/2048.html
http://www.sina.com.cn/4096.html
https://www.atguigu.com/8192.html

命令和结果

cat b.txt |cut -d "/" -f3 |sort| uniq -c|sort -nr
3 www.atguigu.com
2 www.sina.com.cn
1 www. baidu.com

cut -d "/" -f3  用"/"作为分隔符,截取第个3字段
sort 第一次排序
uniq -c 显示该行重复次数
sort -nr 按照数值从大到小排序

6 案例二( ip 连接数统计并排序)

统计当前服务器正在连接的 ip 地址,并按连接次数排序;

netstat -an I grep ESTABLISHED | awk '{print $5}' | cut -d ":" -f1 | sort -n | uniq -c | sort -nr

7 小结

wc 用来统计指定文件中的字节数、行数、单词数、字符数;
uniq 可检查文本文件中重复出现的行列。
可对标准输入,配合 grep、sort、find 等命令完成统计、排序、去重。

「不甩锅的码农」原创,转载请注明来源,未经授权禁止商业用途!同名 GZH 请关注!

Original: https://www.cnblogs.com/bilahepan/p/15861562.html
Author: 不甩锅的码农
Title: 010 Linux 文本统计与去重 (wc 和 uniq)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/524122/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 蓝桥杯真题:纯质数

    蓝桥杯 2021 年国赛真题《纯质数》的 Python 解法。 蓝桥杯 2021 年国赛真题:纯质数。 题目大意 输出 1 到 20210605 之间(包括两端)的”纯…

    Linux 2023年6月13日
    0108
  • tcpreplay重放报文,tcpdump能抓到包,应用程序收不到包

    现象: 生产环境中有两台服务器A、B,A服务器实时有报文发往B服务器。为了在测试环境测试新功能,故在现网A服务器上tcpdump抓取发往B服务器的报文,然后在测试环境tcprewr…

    Linux 2023年5月27日
    0161
  • 04-MySQL锁

    数据库锁 1、SQL语言包括那几个部分 SQL语言包括 数据定义(DDL)、数据操纵(DML)、数据控制(DCL)和数据查询(DQL)四个部分 2、每部分都有哪些操作关键词 数据定…

    Linux 2023年6月7日
    0149
  • Ubuntu20.04 命令行 修改系统IP地址

    Ubuntu 修改IP地址(静态IP) 配置文件修改 — 命令行修改 ifconfig的安装及使用,ip 命令的使用 0. 前言 1. 修改配置文件 1.1 输入(修改…

    Linux 2023年6月6日
    0192
  • 优化gcc

    优化gcc 目的是改善程序的执行性能,通过编译选项(On)来控制优化代码生成,(n)是一个代表优化级别的整数, 典型的有(0, 1, 2, 3) 其中(-O)等价于(-O_1), …

    Linux 2023年6月7日
    0117
  • redis client-output-buffer-limit 设置

    Redis 缓存保护机制: 大小限制,当某一客户端缓冲区超过设定值后直接关闭连接 持续时间限制,某一客户端缓冲区持续一段时间占用过大空间时关闭连接 对于普通客户端来说,限制为0,也…

    Linux 2023年5月28日
    096
  • Tomcat 介绍及使用教程

    镜像下载、域名解析、时间同步请点击阿里云开源镜像站 1. Tomcat 介绍 Apache Tomcat 是由 Apache Software Foundation(ASF)开发的…

    Linux 2023年5月27日
    079
  • 文本编辑命令

    一、vim编辑器 1、vim的三种模式 一般模式(正常模式):以vim打开文件就直接进入到此模式,此模式中可以使用上下左右按键进行移动光标,也可以在此模式下进行文件的复制粘贴删除等…

    Linux 2023年6月6日
    0115
  • 【Hash篇】哈希计算神器-HashMyFiles

    可直接拖放、复制粘贴、添加文件或文件夹的方式来批量计算Hash,操作简便、体积小、免费。这篇来介绍他的汉化和其它一些功能设置—【suy】 目录 1、绿色便携 2、批量算…

    Linux 2023年6月13日
    0106
  • Nginx笔记

    实现负载均衡 这里采用的是权重 进入配置文件目录cd /usr/local/nginx/conf/ //实际根据自己的目录来 编辑vim nginx.conf 根据需要在此代码的顶…

    Linux 2023年5月27日
    0103
  • SF Symbols

    SF符号提供了一套超过2400个一致的、高度可配置的符号,你可以在你的应用程序中使用。苹果公司设计的SF符号能够与旧金山系统字体无缝整合,因此这些符号能够自动确保与所有重量和尺寸的…

    Linux 2023年6月7日
    089
  • DEX文件解析–7、类及其类数据解析(完结篇)

    一、前言 前置技能链接:DEX文件解析—1、dex文件头解析DEX文件解析—2、Dex文件checksum(校验和)解析DEX文件解析–3、de…

    Linux 2023年6月8日
    090
  • redis用法分析

    redis也是一个内存非关系型数据库,它拥有memcache在数据存储上的全部优点,而且在memcache的基础上增加了数据持久性功能,redis用rdb和aof两种方式实现数据持…

    Linux 2023年5月28日
    088
  • Mysql实战技能全解

    一、数据库原理 1 数据的分类 结构化的数据:即有固定格式和有限长度的数据。例如填的表格就是结构化的数据,国籍:中华人民共和国,民族:汉,性别:男,这都叫结构化数据 非结构化的数据…

    Linux 2023年6月7日
    0146
  • rsync

    Rsync-远程同步 简介 rsync是linux系统下的数据镜像备份工具。使用快速增量备份工具Remote Sync可以远程同步,支持本地复制,或者与其他SSH、rsync主机同…

    Linux 2023年6月13日
    074
  • Linux通过手机USB网络共享上网

    多数情况下,服务器无法直接联网,需通过手机连线上网。设置方法如下: 终端中查看现有网络接口: ip addr 或 ifconfig 连接好数据线并在手机设置中打开”通过…

    Linux 2023年6月14日
    096
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球