正则表达式（REGEXP）

2023年5月27日上午2:04 • 大数据 • 阅读 64

基础知识

&#x5143;&#x5B57;&#x7B26;&#xFF1A;&#x542B;&#x6709;&#x7279;&#x5B9A;&#x542B;&#x4E49;&#x7684;&#x7279;&#x6B8A;&#x5B57;&#x7B26;&#x3002;

REGEXP&#xFF1A; Regular Expressions&#xFF0C;&#x662F;&#x4E00;&#x79CD;&#x6A21;&#x5F0F;&#x3002;&#x901A;&#x8FC7;&#x4F7F;&#x7528;&#x5143;&#x5B57;&#x7B26;&#x5339;&#x914D;&#x6587;&#x4EF6;&#x4E2D;&#x7684;&#x5B57;&#x7B26;&#x6216;&#x8005;&#x5B57;&#x7B26;&#x4E32;&#x7684;

&#x901A;&#x914D;&#x7B26;&#xFF1A; &#x662F;&#x7528;&#x6765;&#x5339;&#x914D;&#x6587;&#x4EF6;&#x540D;&#xFF0C;&#x4E0D;&#x80FD;&#x7528;&#x6765;&#x5339;&#x914D;&#x5B57;&#x7B26;&#x4E32;&#xFF08;&#x901A;&#x914D;&#x7B26;&#x53EA;&#x80FD;&#x7528;&#x6765;&#x5339;&#x914D;&#x73B0;&#x6709;&#x6587;&#x4EF6;&#x7684;&#xFF0C;&#x4E0D;&#x80FD;&#x7528;&#x6765;&#x751F;&#x6210;&#x6587;&#x4EF6;

正则表达式分类：

基本正则表达式：
扩展正则表达式：

&#x57FA;&#x672C;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#xFF1A;&#x9700;&#x8981;&#x52A0;&#x8F6C;&#x4E49;&#x5B57;&#x7B26;\ grep&#x9ED8;&#x8BA4;&#x4F7F;&#x7528;&#x7684;&#x5C31;&#x662F;&#x57FA;&#x672C;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;

&#x6269;&#x5C55;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#xFF1A;&#x66F4;&#x7B80;&#x6D01;&#xFF0C;&#x4E66;&#x5199;&#x7684;&#x65F6;&#x5019;&#x53EF;&#x4EE5;不加转义字符（\）&#x4E86;&#xA0;&#x3002;&#x5982;&#xFF1A;&#xFF1F; + {n}&#x7B49;

正则表达式基本元字符：

第一类：字符匹配

点（.）
中括号：[]

点（.）  #单个任意字符（类似于通配符的 ？）

中括号 [] #表示其中的任意一个

    里面匹配出来的是纯小写或大写字符，不像通配符一样有小写有大写

    也支持通配符的写法 #例如表示小写字母： [[: lower :]]

    中括号里面放什么东西就是表示本身的含义 #比如： [.] -- 表示的就是点（.），不表示单个字符的意思

    [^] --- 除括号中指定字符外的任意一个字符

第二类：次数匹配：

描述一个字符出现多少次

\
星号（*)
\?
\

\{num\}  #前一个字符出现num次

    #需要加转移字符（\）

    表示前一个字符出现的次数：\{ num \}

    表示一个区间范围：\{n1,n2\}

*  #前一个字符出现任意次
    #通配符表示的是任意长度的字符

    #贪婪模式： 能匹配的都匹配出来

    #点星（.*）：表示任意多个字符

\? #前面字符出现一次或者零次

    #因为通配符的？是一个字符的意思，通配符是shell的，运行的程序又是shell的子进程，所以加个转义字符。过了shell后就变成了？ ，然后再给程序使用。

    #懒惰模式： 尽可能少匹配

\+  #前面的字符出现一次以上

第三类：位置锚定

脱字符（^）
美元符（$）

^  #&#x8131;&#x5B57;&#x7B26;&#xFF0C;&#x8868;&#x793A;&#x6574;&#x884C;&#x7684;&#x884C;&#x9996;&#xFF08;&#x884C;&#x9996;&#x951A;&#x5B9A;&#xFF09;

    &#x884C;&#x9996;&#x540E;&#x9762;&#x8DDF;&#x4E2A;&#x5B57;&#x7B26;&#x4E32; &#x8868;&#x793A;&#x4EE5;&#x8FD9;&#x4E2A;&#x5B57;&#x7B26;&#x4E32;&#x4F5C;&#x4E3A;&#x5F00;&#x5934;&#x7684;&#x884C;

    &#x5199;&#x5728;&#x4E2D;&#x62EC;&#x53F7;&#x91CC;&#x9762;&#x7684;&#x8131;&#x5B57;&#x7B26;&#x8868;&#x793A;&#x6392;&#x9664;&#x7684;&#x610F;&#x601D; [^xx]

$  #&#x6574;&#x884C;&#x7684;&#x884C;&#x5C3E;&#xFF08;&#x884C;&#x5C3E;&#x951A;&#x5B9A;&#xFF09;

    #&#x4F8B;&#x5982;&#xFF1A;string $ --- &#x4EE5;&#x6307;&#x5B9A;&#x5B57;&#x7B26;&#x7ED3;&#x5C3E;&#x7684;&#x884C;

    #^str$ ---- &#x53EA;&#x5305;&#x542B;str&#x5B57;&#x7B26;&#x4E32;&#x7684;&#x884C;&#xFF08;^$ --- &#x8868;&#x793A;&#x7A7A;&#x884C;&#xFF09;

单词匹配：

linux中 字母、数字、下划算都算单词，其他的就是单词的分界符

#&#x8FDE;&#x7EED;&#x7684; &#x5B57;&#x6BCD;&#x3001;&#x6570;&#x5B57;&#x3001;&#x4E0B;&#x5212;&#x7EBF; &#x624D;&#x7B97;&#x5355;&#x8BCD;

\< &#x6216; \b  #&#x5355;&#x8BCD;&#x7684;&#x8BCD;&#x9996;

\> &#x6216; \b  #&#x5355;&#x8BCD;&#x7684;&#x8BCD;&#x5C3E;

\< str \>   #&#x6574;&#x4E2A;&#x5355;&#x8BCD;

第四类：分组和其他功能

分组
或

&#x5206;&#x7EC4;&#xFF1A;&#x4F7F;&#x7528;&#x5C0F;&#x62EC;&#x53F7;&#x62EC;&#x8D77;&#x6765;&#x5F62;&#x6210;&#x4E00;&#x4E2A;&#x6574;&#x4F53;&#xFF0C;&#x540E;&#x9762;&#x9700;&#x8981;&#x8C03;&#x7528;&#x5206;&#x7EC4;&#x7684;&#x65F6;&#x5019;&#x7528;\num #num&#x8868;&#x7684;&#x7B2C;&#x51E0;&#x4E2A;&#x5206;&#x7EC4;
&#x5F62;&#x6210;&#x4E00;&#x4E2A;&#x6574;&#x4F53;&#xFF1A; \(  \)

&#x4F8B;&#x5982;&#xFF1A; abc&#x51FA;&#x73B0;&#x4E09;&#x6B21;  \(abc\)\{3\}

&#x6216;&#xFF1A;| &#xFF1A;&#x4F7F;&#x7528;&#x7684;&#x65F6;&#x5019;&#x8981;&#x52A0;&#x8F6C;&#x4E49;&#x5B57;&#x7B26; \ #&#x5B9E;&#x73B0;&#x4E8C;&#x9009;&#x4E00;&#x7684;&#x6548;&#x679C;

正则表达式扩展元字符：

扩展元字符不使用斜杠进行转义。

[En]

Extended metacharacters are escaped without slashes.

&#x57FA;&#x672C;&#x6B63;&#x5219;&#x8868;&#x8FBE;&#x5F0F;&#x4E0D;&#x52A0;&#x8F6C;&#x4E49;&#x5B57;&#x7B26;&#xFF08;\&#xFF09;&#x3002;&#x6BD4;&#x5982;&#x6B21;&#x6570;&#x5339;&#x914D;&#x7C7B;&#x3001;&#x5355;&#x8BCD;&#x5339;&#x914D;&#x548C;&#x5206;&#x7EC4;&#x7684;&#x5143;&#x5B57;&#x7B26;&#x3002;

&#x4F8B;&#x5982;&#xFF1A;{}&#x3001;&#xFF08;&#xFF09;&#x3001;&#xFF1F;&#x3001;+&#x3001;|&#x3001;<、>&#x3001;b
</、>

支持正则表达式的工具:

grep、sed、awk、vim编辑器

范例：获取IP地址

ifconfig ens33 | grep -i inet | grep -o '[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}\.[0-9]\{1,3\}' | head -1

#&#x7B80;&#x5316;&#xFF1A;
ifconfig ens33 | grep -i inet | grep -o '\([0-9]\{1,3\}\.\)\{3\}[0-9]\{1,3\}' | head -1

Original: https://www.cnblogs.com/heyongshen/p/16376780.html
Author: 背对背依靠
Title: 正则表达式（REGEXP）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/523377/

转载文章受原作者版权保护。转载请注明原作者出处！

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30