linux awk命令详解

awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。

awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,gawk 是 AWK 的 GNU 版本。

awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为”样式扫描和处理语言”。它允许您创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表,还有无数其他的功能。

使用方法

尽管操作可能很复杂,但语法始终是这样的,其中模式表示AWK在数据中查找的内容,而操作是在找到匹配项时执行的一系列命令。大括号({})不需要一直出现在程序中,但它们用于根据特定模式对一系列指令进行分组。Pattern是您想要表示的正则表达式,由对角线包围。

[En]

Although the operation can be complex, the syntax is always like this, where pattern represents what AWK looks for in the data, and action is a series of commands that are executed when a match is found. Curly braces ({}) do not need to appear all the time in the program, but they are used to group a series of instructions according to a specific pattern. Pattern is the regular expression that you want to represent, surrounded by diagonal bars.

awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息,awk抽取信息后,才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。

通常,awk将单位作为文件的一种行为进行处理。AWK接收文件的每一行,然后执行适当的命令来处理文本。

[En]

Typically, awk processes units as a behavior of a file. Awk receives each line of the file and then executes the appropriate command to process the text.

调用awk

有三种方法可以调用awk

[En]

There are three ways to call awk

本章重点介绍命令行方法。

[En]

This chapter focuses on the command line approach.

入门实例

假设last-n 5的输出如下所示

[En]

Suppose the output of last-n 5 is as follows

如果您只显示最近登录的五个帐户

[En]

If you only show the five most recently logged in accounts

awk工作流程是这样的:读入有’\n’换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是”空白键” 或 “[tab]键”,所以$1表示登录用户,$3表示登录用户ip,以此类推。

如果它只显示/etc/passwd的帐户

[En]

If it just shows the account of / etc/passwd

这是awk+操作的一个示例,其中每一行都执行操作{print$1}。

[En]

This is an example of awk+action, where each line executes action {print $1}.

-F指定域分隔符为’:’。

如果只显示/etc/passwd的帐号和帐号对应的外壳,并且用Tab键分隔帐号和外壳

[En]

If only the account of / etc/passwd and the corresponding shell of the account are displayed, and the account and shell are separated by the tab key

如果只显示/etc/passwd的帐户和帐户的对应外壳,并且帐户和外壳之间用逗号分隔,并且在所有行中添加列名和外壳,则在最后一行添加“Blue,/bin/nosh”。

[En]

If you only show the account of / etc/passwd and the corresponding shell of the account, and the account and shell are separated by a comma, and you add the column name name,shell in all lines, add “blue,/bin/nosh” on the last line.

awk工作流程是这样的:先执行BEGING,然后读取文件,读入有/n换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动作action。接着开始读入第二条记录······直到所有的记录都读完,最后执行END操作。

搜索/etc/passwd带有根关键字的所有行

[En]

Search / etc/passwd all lines with the root keyword

这是一个使用模式的示例,其中与模式匹配的行(在本例中为根)将执行操作(未指定操作,每行的默认输出)。

[En]

This is an example of the use of pattern, where lines that match pattern (in this case, root) will execute action (no action specified, default output of each line).

搜索支持规则,例如在根目录的开头查找awk-F:‘/^ROOT/’/etc/passwd

[En]

Search supports rules, such as looking for awk-F:’/ ^ root/’ / etc/passwd at the beginning of root

在/etc/passwd中搜索所有带有根关键字的行,并显示相应的外壳

[En]

Search for all lines with the root keyword in / etc/passwd and display the corresponding shell

此处指定了操作{print$7}

[En]

Action {print $7} is specified here

awk内置变量

awk有许多内置变量用来设置环境信息,这些变量可以被改变,下面给出了最常用的一些变量。

此外,$0变量指的是整个记录。$1表示当前行的第一个字段,$2表示当前行的第二个字段。诸若此类。

[En]

In addition, the $0 variable refers to the entire record. $1 represents the first field of the current row, and $2 represents the second field of the current row. and so on.

STATISTICS/ETC/PASSWD:文件名、每行行号、每行列数、对应整行内容:

[En]

Statistics / etc/passwd: file name, line number of each line, number of columns per line, corresponding full line content:

使用printf而不是print可以使代码更简洁、更易于阅读

[En]

Using printf instead of print can make the code more concise and easy to read

print和printf

awk中同时提供了print和printf两种打印输出的函数。

其中,print函数的参数可以是变量、数值或字符串。字符串必须用双引号引用,参数之间必须用逗号分隔。如果没有逗号,则参数是串联的,无法区分。在这里,逗号的作用与输出文件的分隔符相同,只是后者是一个空格。

[En]

Where the argument to the print function can be a variable, a numeric value, or a string. Strings must be referenced in double quotes and parameters separated by commas. If there is no comma, the parameters are concatenated and cannot be distinguished. Here, the comma serves the same purpose as the delimiter of the output file, except that the latter is a space.

printf函数,其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时,printf更加好用,代码更易懂。

awk编程

变量和赋值

除了awk的内置变量外,awk还可以定制变量。

[En]

In addition to awk’s built-in variables, awk can also customize variables.

计算下面/etc/passwd中的帐户数

[En]

Count the number of accounts in / etc/passwd below

count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句,而action{}可以有多个语句,以;号隔开。

此处未初始化计数。虽然缺省值为0,但将其初始化为0比较合适:

[En]

Count is not initialized here. Although the default is 0, it is appropriate to initialize it to 0:

统计文件夹中文件占用的字节数

[En]

Count the number of bytes occupied by files in a folder

如果以M为单位显示:

[En]

If displayed in M units:

请注意,统计信息不包括文件夹的子目录。

[En]

Note that the statistics do not include subdirectories of the folder.

条件语句

awk中的条件语句是从C语言中借鉴来的,见如下声明方式:

计算文件夹中文件占用的字节数,并过滤大小为4096的文件(通常为文件夹):

[En]

Count the number of bytes occupied by files in a folder and filter files with a size of 4096 (usually folders):

循环语句

awk中的循环语句同样借鉴于C语言,支持while、do/while、for、break、continue,这些关键字的语义和C语言中的语义完全相同。

因为awk中数组的下标可以是数字和字母,所以数组的下标通常被称为键。值和关键字存储在键/值应用散列的内部表中。因为哈希不是按顺序存储的,所以当您显示数组的内容时,您会发现它们没有按预期的顺序显示。与变量一样,数组在使用时会自动创建,awk还会自动确定它们是存储数字还是字符串。通常,awk中的数组用于从记录中收集信息,并可用于计算总和、计算字数、跟踪模板匹配的次数等。

[En]

Because the subscript of an array in awk can be numeric and alphabetic, the subscript of an array is often referred to as a key. The values and keywords are stored in an internal table for the key/value application hash. Because hash is not stored sequentially, when you display the contents of the array, you will find that they are not displayed in the order you expected. Arrays, like variables, are created automatically when they are used, and awk also automatically determines whether they store numbers or strings. In general, arrays in awk are used to collect information from records and can be used to calculate sums, count words, track the number of times the template has been matched, and so on.

显示/etc/passwd的帐户

[En]

Show / etc/passwd ‘s account

这里使用for循环遍历数组

Original: https://www.cnblogs.com/yymn/p/5675995.html
Author: 菜鸡一枚
Title: linux awk命令详解

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/7059/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

免费咨询
免费咨询
扫码关注
扫码关注
联系站长

站长Johngo!

大数据和算法重度研究者!

持续产出大数据、算法、LeetCode干货,以及业界好资源!

2022012703491714

微信来撩,免费咨询:xiaozhu_tec

分享本页
返回顶部
最近整理资源【免费获取】:   👉 程序员最新必读书单  | 👏 互联网各方向面试题下载 | ✌️计算机核心资源汇总