验证正则表达式的网站

验证正则表达式的网址

常见语法

写在正则表达式里的普通字符都是表示:直接匹配他们,汉字也是一样,要寻找汉字,直接写在正则表达式里面就行了。

但有类特殊的字符,术语叫metacharacters(元字符)。他们出现在正则表达式字符串中,不是直接匹配他们,而是表达一些特别的含义,如下:

. * + ? \ [ ] ^ $ { } | ( )

点-匹配所有字符

.表示要匹配除了换行符之外的任何单个字符

比如从下面的文本中选择出所有的颜色,也就是要找到所有以'色'结尾,并且包括前面的一个字符的词语,就可以这样写正则表达式'.色',其中点代表了任意的一个字符,注意是一个字符,'.色'合起来就表示要找任意一个字符后面是色这个字,合起来两个字的字符串

18862-fxvcwo38ctf.png

import re

content = '''苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的'''

p = re.compile(r'.色') #r表示不要进行python语法中的转义,最好写正则的时候条件反射加上r
for one in p.findall(content):
    print(one)

结果:

96028-eopow3uwzj.png

星号-重复匹配任意次

*表示匹配前面的子表达式任意次,包括0次

比如,要从下面的文本中,选择每行逗号后面的字符串内容,包括逗号本身。注意,这里的逗号是中文的逗号。就可以这样写正则表达式',.',紧跟在.后面表示任意字符出现任意次,所以整个表达式的意思就是在逗号后面的所有字符,包括逗号

85072-zq7ezewbhvm.png

import re

content = '''苹果,是绿色的
橙子,是橙色的
香蕉,是黄色的
乌鸦,是黑色的
猴子,'''

p = re.compile(r',.*')
for one in p.findall(content):
    print(one)

结果:

03918-pwriofvz8h.png

加号-重复匹配多次

+表示匹配前面的子表达式一次或多次,不包括0次

比如,要从下面的文本中,选择每行逗号后面的字符串内容,包括逗号本身,但是添加一个条件,如果逗号后面没有内容就不要选择了

58217-z7soq74ley.png

import re

content = '''苹果,是绿色的
橙子,是橙色的
香蕉,是黄色的
乌鸦,是黑色的
猴子,'''

p = re.compile(r',.+')
for one in p.findall(content):
    print(one)

结果:

88586-8ud9gm3n8d.png

花括号-匹配指定次数

{}表示前面的字符匹配指定次数

比如在下面的文本中,油{3,4}就表示匹配连续油字至少三次,至多四次

01759-ycwq6exjsp.png

import re

content='红彤彤,绿油油,黑乎乎,绿油油油油'
p=re.compile(r'绿油{2,4}')

for one in p.findall(content):
    print(one)

结果:

65855-klahpze4b3.png

贪婪模式和非贪婪模式

要把下面的字符串中所有的html标签都提取出来

33290-d1fi3eqymyc.png

得到这样一个列表

77728-wt4r9471mo.png

很容易想到使用正则表达式<.*>,写出如下代码:

import re

source='<html><head><title>Title</title>'
p=re.compile(r'<.*>')
print(p.findall(source))

得到的却是

42670-mh0aqiidvcn.png

这是因为在正则表达式中' +'都是贪婪的,使用它们时,会尽可能多的匹配内容,最开始的'<'匹配到了最后的title中的'>',为了解决这个问题,就需要使用非贪婪模式,也就是在星号后面加上'?',变成'<.*?>',代码改为

import re

source='<html><head><title>Title</title>'
p=re.compile(r'<.*?>')
print(p.findall(source))

最后结果:

58179-9su2j4qs3rg.png

对元字符的转义

反斜杠\在正则表达式中有多种用途,比如在下面的文本中搜索点前面的字符串,也包含点本身,如果这样写正则表达式'.*.',肯定不对--因为点是一个元字符,直接出现在正则表达式中,表示匹配任意的单个字符,不能表示.这个字符本身的意思了

77493-m2dshyvpjzf.png

如果我们要搜索的内容本身就包含元字符,就可以使用反斜杠进行转义,这里我们就应该使用这样的表达式:'.*.'

import re

content = '''苹果.是绿色的
橙子.是橙色的
香蕉.是黄色的
乌鸦.是黑色的'''

p = re.compile(r'.*\.')
for one in p.findall(content):
    print(one)

结果:

74127-bt92ctd0ikp.png

匹配某种字符类型

反斜杠后面接一些字符,表示匹配某种类型的字符,比如:

\d 匹配0-9之间任意一个数字字符,等价于[0-9]
\D 匹配任意一个不是0-9之间的数字字符,等价于表达式[^0-9]
\s 匹配任意一个空白字符,包括空格、tab、换行符等,等价于表达式[\t\n\r\f\v]
\S 匹配任意一个非空白字符,等价于表达式[^\t\n\r\f\v]
\w 匹配任意一个文字字符,包括大小写字母、数字、下划线,等价于表达式[a-zA-Z0-9_]
缺省情况也包括Unicode文字字符,如果指定ASCII码标记,则只包括ASCII字母
,p=re.complie(r'\w{2,4}',re.A)表示ASCII码标记
\W 匹配任意一个非文字字符,等价于表达式[^a-zA-Z0-9_]

方括号-匹配几个字符之一

反斜杠也可以用在方括号里面,比如[\s,.]表示匹配任何空白字符,或者逗号,或者点;一些元字符在方括号内失去了魔法,变得和普通字符一样了,比如[akm.]匹配akm.里面的任意一个字符,这里.在括号内不再表示匹配任意字符了,而就是表示.这个字符

如果在方括号中使用^,表示非方括号里面的字符集合

起始、结束位置和单行、多行模式

^表示匹配文本的起始位置,正则表达式可以设定单行模式和多行模式(python中缺省模式默认单行模式)

如果是单行模式,表示匹配整个文本的开头位置,如果是多行模式,表示匹配文本每行的开头位置,比如,下面的文本中,每行最前面的数字表示水果的编号,如果要提取所有的水果编号,用这样的正则表达式'^\d+'

import re

content='''
001-苹果价格-60,
002-橙子价格-80,
003-香蕉加个-80,
'''

p = re.compile(r'^\d+',re.M)#多行模式
for one in p.findall(content):
    print(one)

结果:

68580-o55cl4ugubh.png

$表示匹配文本的结束位置

如果是单行模式,表示匹配整个文本的结束位置;如果是多行模式,表示匹配文本每行的结束位置

import re

content='''
001-苹果价格-60
002-橙子价格-80
003-香蕉加个-80
'''

p = re.compile(r'^\d+',re.M)
for one in p.findall(content):
    print(one)

p = re.compile(r'\d+$',re.M)
for one in p.findall(content):
    print(one)

结果:

75048-tgencaioaw.png

括号-组选择

括号称之为正则表达式的组选择,是从正则表达式匹配的内容里面扣取出其中的某些部分,前面有个例子从下面的文本中,选择每行逗号前面的字符串,也包括逗号本身,就可以这样写正则表达式'^.*,'。

36174-sovgvaojlj.png

但是如果要求不要包括都好呢?方法就是使用组选择符--括号

import re

content = '''苹果,是绿色的
橙子,是橙色的
香蕉,是黄色的
乌鸦,是黑色的'''

p=re.compile(r'^(.*),',re.M)
for one in p.findall(content):
    print(one)

结果:

44193-1zezb9sxqe.png

如果要提取下面文本的姓名和联系方式:

张三,手机号码15912903417
李四,手机号码13954938708
王二,手机号码13825908645
import re

content = '''
张三,手机号码15912903417
李四,手机号码13954938708
王二,手机号码13825908645
'''

p=re.compile(r'^(.*),.+(\d{11})',re.M)
for one in p.findall(content):
    print(one)

结果:

44146-kja4jddxvhg.png

使用正则表达式切割字符串

字符串对象的split()对象只适应于非常简单的字符串分割情形,当需要更加灵活的切割字符串的时候,就不好用了。比如,需要从下面字符串中提取武将的名字,发现这些名字之间,有的是分号隔开,有的是空格隔开,而且分隔符号周围还有不定数量的空格,这时候最好使用正则表达式里面的split方法

05806-6krlqrqvrvr.png

import re

names = '关于;张飞,赵云,马超, 黄忠  李逵'

namelist = re.split(r'[;,.\s]\s*', names)
print(namelist)

结果:

92186-ifyrm9absei.png

指定替换函数

02682-8066x7f0vvh.png

最后修改:2022 年 04 月 29 日
如果觉得我的文章对你有用,请随意赞赏