python正则表达式

博主： 4HET
发布时间：2021 年 10 月 29 日
343 次浏览
2 条评论
6223字数
分类： python爬虫

验证正则表达式的网站

常见语法

写在正则表达式里的普通字符都是表示：直接匹配他们，汉字也是一样，要寻找汉字，直接写在正则表达式里面就行了。

但有类特殊的字符，术语叫metacharacters（元字符）。他们出现在正则表达式字符串中，不是直接匹配他们，而是表达一些特别的含义，如下：

. * + ? \ [ ] ^ $ { } | ( )

点-匹配所有字符

.表示要匹配除了换行符之外的任何单个字符

比如从下面的文本中选择出所有的颜色，也就是要找到所有以'色'结尾，并且包括前面的一个字符的词语，就可以这样写正则表达式'.色'，其中点代表了任意的一个字符，注意是一个字符，'.色'合起来就表示要找任意一个字符后面是色这个字，合起来两个字的字符串

import re

content = '''苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的'''

p = re.compile(r'.色') #r表示不要进行python语法中的转义，最好写正则的时候条件反射加上r
for one in p.findall(content):
    print(one)

结果：

星号-重复匹配任意次

*表示匹配前面的子表达式任意次，包括0次

比如，要从下面的文本中，选择每行逗号后面的字符串内容，包括逗号本身。注意，这里的逗号是中文的逗号。就可以这样写正则表达式'，.'，紧跟在.后面表示任意字符出现任意次，所以整个表达式的意思就是在逗号后面的所有字符，包括逗号

import re

content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.*')
for one in p.findall(content):
    print(one)

结果：

加号-重复匹配多次

+表示匹配前面的子表达式一次或多次，不包括0次

比如，要从下面的文本中，选择每行逗号后面的字符串内容，包括逗号本身，但是添加一个条件，如果逗号后面没有内容就不要选择了

import re

content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.+')
for one in p.findall(content):
    print(one)

结果：

花括号-匹配指定次数

{}表示前面的字符匹配指定次数

比如在下面的文本中，油{3,4}就表示匹配连续油字至少三次，至多四次

import re

content='红彤彤，绿油油，黑乎乎，绿油油油油'
p=re.compile(r'绿油{2,4}')

for one in p.findall(content):
    print(one)

结果：

贪婪模式和非贪婪模式

要把下面的字符串中所有的html标签都提取出来

得到这样一个列表

很容易想到使用正则表达式<.*>，写出如下代码：

import re

source='<html><head><title>Title</title>'
p=re.compile(r'<.*>')
print(p.findall(source))

得到的却是

这是因为在正则表达式中' +'都是贪婪的，使用它们时，会尽可能多的匹配内容，最开始的'<'匹配到了最后的title中的'>'，为了解决这个问题，就需要使用非贪婪模式，也就是在星号后面加上'?'，变成'<.*?>'，代码改为

import re

source='<html><head><title>Title</title>'
p=re.compile(r'<.*?>')
print(p.findall(source))

最后结果：

对元字符的转义

反斜杠\在正则表达式中有多种用途，比如在下面的文本中搜索点前面的字符串，也包含点本身，如果这样写正则表达式'.*.'，肯定不对--因为点是一个元字符，直接出现在正则表达式中，表示匹配任意的单个字符，不能表示.这个字符本身的意思了

如果我们要搜索的内容本身就包含元字符，就可以使用反斜杠进行转义，这里我们就应该使用这样的表达式：'.*.'

import re

content = '''苹果.是绿色的
橙子.是橙色的
香蕉.是黄色的
乌鸦.是黑色的'''

p = re.compile(r'.*\.')
for one in p.findall(content):
    print(one)

结果:

匹配某种字符类型

反斜杠后面接一些字符，表示匹配某种类型的字符，比如：

\d 匹配0-9之间任意一个数字字符，等价于[0-9]
\D 匹配任意一个不是0-9之间的数字字符，等价于表达式[^0-9]
\s 匹配任意一个空白字符，包括空格、tab、换行符等，等价于表达式[\t\n\r\f\v]
\S 匹配任意一个非空白字符，等价于表达式[^\t\n\r\f\v]
\w 匹配任意一个文字字符，包括大小写字母、数字、下划线，等价于表达式[a-zA-Z0-9_]
缺省情况也包括Unicode文字字符，如果指定ASCII码标记，则只包括ASCII字母
,p=re.complie(r'\w{2,4}',re.A)表示ASCII码标记
\W 匹配任意一个非文字字符，等价于表达式[^a-zA-Z0-9_]

方括号-匹配几个字符之一

反斜杠也可以用在方括号里面，比如[\s,.]表示匹配任何空白字符，或者逗号，或者点；一些元字符在方括号内失去了魔法，变得和普通字符一样了，比如[akm.]匹配akm.里面的任意一个字符，这里.在括号内不再表示匹配任意字符了，而就是表示.这个字符

如果在方括号中使用^，表示非方括号里面的字符集合

起始、结束位置和单行、多行模式

^表示匹配文本的起始位置，正则表达式可以设定单行模式和多行模式(python中缺省模式默认单行模式)

如果是单行模式，表示匹配整个文本的开头位置，如果是多行模式，表示匹配文本每行的开头位置，比如，下面的文本中，每行最前面的数字表示水果的编号，如果要提取所有的水果编号，用这样的正则表达式'^\d+'

import re

content='''
001-苹果价格-60，
002-橙子价格-80，
003-香蕉加个-80,
'''

p = re.compile(r'^\d+',re.M)#多行模式
for one in p.findall(content):
    print(one)

结果:

$表示匹配文本的结束位置

如果是单行模式，表示匹配整个文本的结束位置；如果是多行模式，表示匹配文本每行的结束位置

import re

content='''
001-苹果价格-60
002-橙子价格-80
003-香蕉加个-80
'''

p = re.compile(r'^\d+',re.M)
for one in p.findall(content):
    print(one)

p = re.compile(r'\d+$',re.M)
for one in p.findall(content):
    print(one)

结果:

括号-组选择

括号称之为正则表达式的组选择，是从正则表达式匹配的内容里面扣取出其中的某些部分，前面有个例子从下面的文本中，选择每行逗号前面的字符串，也包括逗号本身，就可以这样写正则表达式'^.*,'。

但是如果要求不要包括都好呢？方法就是使用组选择符--括号

import re

content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的'''

p=re.compile(r'^(.*)，',re.M)
for one in p.findall(content):
    print(one)

结果:

如果要提取下面文本的姓名和联系方式：

张三，手机号码15912903417
李四，手机号码13954938708
王二，手机号码13825908645

import re

content = '''
张三，手机号码15912903417
李四，手机号码13954938708
王二，手机号码13825908645
'''

p=re.compile(r'^(.*)，.+(\d{11})',re.M)
for one in p.findall(content):
    print(one)

结果:

使用正则表达式切割字符串

字符串对象的split()对象只适应于非常简单的字符串分割情形，当需要更加灵活的切割字符串的时候，就不好用了。比如，需要从下面字符串中提取武将的名字，发现这些名字之间，有的是分号隔开，有的是空格隔开，而且分隔符号周围还有不定数量的空格，这时候最好使用正则表达式里面的split方法

import re

names = '关于；张飞，赵云，马超， 黄忠  李逵'

namelist = re.split(r'[;，.\s]\s*', names)
print(namelist)

结果：

指定替换函数

最后修改：2022 年 04 月 29 日

如果觉得我的文章对你有用，请随意赞赏

2 条评论

孙女士
February 25th, 2022 at 09:31 pm

%3Cscript%3Ealert(%221%22)%3C%2Fscript%3E

回复
孙女士
February 25th, 2022 at 09:30 pm

alert("1")alert("1")ALERT("1")
alert("1")

回复

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

孙女士
666
孙女士
牛马，偷看全班成绩
孙女士
%3Cscript%3Ealert(%221%22)%3C%2...
孙女士
alert("1")alert("1")ALERT("1")&...
lhz
tql

python 协程
评论数： 0
python多线程
评论数： 0
计算机网络概述
评论数： 0
Django入门
评论数： 0
JDBC
评论数： 0

python正则表达式

4HET • 2021 年 10 月 29 日

<h3>验证正则表达式的网站</h3><p><span class="external-link"><a class="no-external-link" href="https://regex101.com/" target="_blank"><i data-feather="external-link"></i>验证正则表达式的网址</a></span></p><h3>常见语法</h3><p>写在正则表达式里的普通字符都是表示：直接匹配他们，汉字也是一样，要寻找汉字，直接写在正则表达式里面就行了。</p><p>但有类特殊的字符，术语叫metacharacters（元字符）。他们出现在正则表达式字符串中，不是直接匹配他们，而是表达一些特别的含义，如下：</p><pre><code class="lang-python">. * + ? \ [ ] ^ $ { } | ( )</code></pre><h3>点-匹配所有字符</h3><p>.表示要匹配除了换行符之外的任何单个字符</p><p>比如从下面的文本中选择出所有的颜色，也就是要找到所有以'色'结尾，并且包括前面的一个字符的词语，就可以这样写正则表达式'.色'，其中点代表了任意的一个字符，注意是一个字符，'.色'合起来就表示要找任意一个字符后面是色这个字，合起来两个字的字符串</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/4118433088.png" alt="18862-fxvcwo38ctf.png" title="18862-fxvcwo38ctf.png"style=""></p><pre><code class="lang-python">import re

content = '''苹果是绿色的
橙子是橙色的
香蕉是黄色的
乌鸦是黑色的'''

p = re.compile(r'.色') #r表示不要进行python语法中的转义，最好写正则的时候条件反射加上r
for one in p.findall(content):
    print(one)</code></pre><p>结果：</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/617316340.png" alt="96028-eopow3uwzj.png" title="96028-eopow3uwzj.png"style=""></p><h3>星号-重复匹配任意次</h3><p>*表示匹配前面的子表达式任意次，包括0次</p><p>比如，要从下面的文本中，选择每行逗号后面的字符串内容，包括逗号本身。注意，这里的逗号是中文的逗号。就可以这样写正则表达式'，.<em>'，</em>紧跟在.后面表示任意字符出现任意次，所以整个表达式的意思就是在逗号后面的所有字符，包括逗号</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/912079858.png" alt="85072-zq7ezewbhvm.png" title="85072-zq7ezewbhvm.png"style=""></p><pre><code class="lang-python">import re

content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.*')
for one in p.findall(content):
    print(one)</code></pre><p>结果：</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/280674554.png" alt="03918-pwriofvz8h.png" title="03918-pwriofvz8h.png"style=""></p><h3>加号-重复匹配多次</h3><p>+表示匹配前面的子表达式一次或多次，不包括0次</p><p>比如，要从下面的文本中，选择每行逗号后面的字符串内容，包括逗号本身，但是添加一个条件，如果逗号后面没有内容就不要选择了</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/3002385428.png" alt="58217-z7soq74ley.png" title="58217-z7soq74ley.png"style=""></p><pre><code class="lang-python">import re

content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的
猴子，'''

p = re.compile(r'，.+')
for one in p.findall(content):
    print(one)</code></pre><p>结果：</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/3422688074.png" alt="88586-8ud9gm3n8d.png" title="88586-8ud9gm3n8d.png"style=""></p><h3>花括号-匹配指定次数</h3><p>{}表示前面的字符匹配指定次数</p><p>比如在下面的文本中，油{3,4}就表示匹配连续油字至少三次，至多四次</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/2010252199.png" alt="01759-ycwq6exjsp.png" title="01759-ycwq6exjsp.png"style=""></p><pre><code class="lang-python">import re

content='红彤彤，绿油油，黑乎乎，绿油油油油'
p=re.compile(r'绿油{2,4}')

for one in p.findall(content):
    print(one)</code></pre><p>结果：</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/1361159050.png" alt="65855-klahpze4b3.png" title="65855-klahpze4b3.png"style=""></p><h3>贪婪模式和非贪婪模式</h3><p>要把下面的字符串中所有的html标签都提取出来</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/4292102320.png" alt="33290-d1fi3eqymyc.png" title="33290-d1fi3eqymyc.png"style=""></p><p>得到这样一个列表</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/2703008537.png" alt="77728-wt4r9471mo.png" title="77728-wt4r9471mo.png"style=""></p><p>很容易想到使用正则表达式<code>&lt;.*&gt;</code>，写出如下代码：</p><pre><code class="lang-python">import re

source='&lt;html&gt;&lt;head&gt;&lt;title&gt;Title&lt;/title&gt;'
p=re.compile(r'&lt;.*&gt;')
print(p.findall(source))</code></pre><p>得到的却是</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/1776594619.png" alt="42670-mh0aqiidvcn.png" title="42670-mh0aqiidvcn.png"style=""></p><p>这是因为在正则表达式中'<em> +'都是贪婪的，使用它们时，会尽可能多的匹配内容，最开始的'&lt;'匹配到了最后的title中的'&gt;'，为了解决这个问题，就需要使用非贪婪模式，也就是在星号</em>后面加上'?'，变成'&lt;.*?&gt;'，代码改为</p><pre><code class="lang-python">import re

source='&lt;html&gt;&lt;head&gt;&lt;title&gt;Title&lt;/title&gt;'
p=re.compile(r'&lt;.*?&gt;')
print(p.findall(source))</code></pre><p>最后结果：</p><p><img src="http://47.98.116.174/usr/uploads/2021/10/3620161308.png" alt="58179-9su2j4qs3rg.png" title="58179-9su2j4qs3rg.png"style=""></p><h3>对元字符的转义</h3><p>反斜杠\在正则表达式中有多种用途，比如在下面的文本中搜索点前面的字符串，也包含点本身，如果这样写正则表达式'.*.'，肯定不对--因为点是一个元字符，直接出现在正则表达式中，表示匹配任意的单个字符，不能表示.这个字符本身的意思了</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/4071315486.png" alt="77493-m2dshyvpjzf.png" title="77493-m2dshyvpjzf.png"style=""></p><p>如果我们要搜索的内容本身就包含元字符，就可以使用反斜杠进行转义，这里我们就应该使用这样的表达式：'.*.'</p><pre><code class="lang-python">import re

content = '''苹果.是绿色的
橙子.是橙色的
香蕉.是黄色的
乌鸦.是黑色的'''

p = re.compile(r'.*\.')
for one in p.findall(content):
    print(one)</code></pre><p>结果:</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/3210499308.png" alt="74127-bt92ctd0ikp.png" title="74127-bt92ctd0ikp.png"style=""></p><h4>匹配某种字符类型</h4><p>反斜杠后面接一些字符，表示匹配某种类型的字符，比如：</p><pre><code>\d 匹配0-9之间任意一个数字字符，等价于[0-9]
\D 匹配任意一个不是0-9之间的数字字符，等价于表达式[^0-9]
\s 匹配任意一个空白字符，包括空格、tab、换行符等，等价于表达式[\t\n\r\f\v]
\S 匹配任意一个非空白字符，等价于表达式[^\t\n\r\f\v]
\w 匹配任意一个文字字符，包括大小写字母、数字、下划线，等价于表达式[a-zA-Z0-9_]
缺省情况也包括Unicode文字字符，如果指定ASCII码标记，则只包括ASCII字母
,p=re.complie(r'\w{2,4}',re.A)表示ASCII码标记
\W 匹配任意一个非文字字符，等价于表达式[^a-zA-Z0-9_]</code></pre><h3>方括号-匹配几个字符之一</h3><p>反斜杠也可以用在方括号里面，比如[\s,.]表示匹配任何空白字符，或者逗号，或者点；一些元字符在方括号内失去了魔法，变得和普通字符一样了，比如[akm.]匹配akm.里面的任意一个字符，这里.在括号内不再表示匹配任意字符了，而就是表示.这个字符</p><p>如果在方括号中使用^，表示非方括号里面的字符集合</p><h3>起始、结束位置和单行、多行模式</h3><p>^表示匹配文本的起始位置，正则表达式可以设定单行模式和多行模式(python中缺省模式默认单行模式)</p><p>如果是单行模式，表示匹配整个文本的开头位置，如果是多行模式，表示匹配文本每行的开头位置，比如，下面的文本中，每行最前面的数字表示水果的编号，如果要提取所有的水果编号，用这样的正则表达式'^\d+'</p><pre><code class="lang-python">import re

content='''
001-苹果价格-60，
002-橙子价格-80，
003-香蕉加个-80,
'''

p = re.compile(r'^\d+',re.M)#多行模式
for one in p.findall(content):
    print(one)</code></pre><p>结果:</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/1330047263.png" alt="68580-o55cl4ugubh.png" title="68580-o55cl4ugubh.png"style=""></p><p>$表示匹配文本的结束位置</p><p>如果是单行模式，表示匹配整个文本的结束位置；如果是多行模式，表示匹配文本每行的结束位置</p><pre><code class="lang-python">import re

content='''
001-苹果价格-60
002-橙子价格-80
003-香蕉加个-80
'''

p = re.compile(r'^\d+',re.M)
for one in p.findall(content):
    print(one)

p = re.compile(r'\d+$',re.M)
for one in p.findall(content):
    print(one)</code></pre><p>结果:</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/3915640663.png" alt="75048-tgencaioaw.png" title="75048-tgencaioaw.png"style=""></p><h3>括号-组选择</h3><p>括号称之为正则表达式的组选择，是从正则表达式匹配的内容里面扣取出其中的某些部分，前面有个例子从下面的文本中，选择每行逗号前面的字符串，也包括逗号本身，就可以这样写正则表达式'^.*,'。</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/1467204340.png" alt="36174-sovgvaojlj.png" title="36174-sovgvaojlj.png"style=""></p><p>但是如果要求不要包括都好呢？方法就是使用组选择符--括号</p><pre><code class="lang-python">import re

content = '''苹果，是绿色的
橙子，是橙色的
香蕉，是黄色的
乌鸦，是黑色的'''

p=re.compile(r'^(.*)，',re.M)
for one in p.findall(content):
    print(one)</code></pre><p>结果:</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/1587484521.png" alt="44193-1zezb9sxqe.png" title="44193-1zezb9sxqe.png"style=""></p><p>如果要提取下面文本的姓名和联系方式：</p><pre><code>张三，手机号码15912903417
李四，手机号码13954938708
王二，手机号码13825908645</code></pre><pre><code class="lang-python">import re

content = '''
张三，手机号码15912903417
李四，手机号码13954938708
王二，手机号码13825908645
'''

p=re.compile(r'^(.*)，.+(\d{11})',re.M)
for one in p.findall(content):
    print(one)</code></pre><p>结果:</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/404223647.png" alt="44146-kja4jddxvhg.png" title="44146-kja4jddxvhg.png"style=""></p><h3>使用正则表达式切割字符串</h3><p>字符串对象的split()对象只适应于非常简单的字符串分割情形，当需要更加灵活的切割字符串的时候，就不好用了。比如，需要从下面字符串中提取武将的名字，发现这些名字之间，有的是分号隔开，有的是空格隔开，而且分隔符号周围还有不定数量的空格，这时候最好使用正则表达式里面的split方法</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/1314964852.png" alt="05806-6krlqrqvrvr.png" title="05806-6krlqrqvrvr.png"style=""></p><pre><code class="lang-python">import re

names = '关于；张飞，赵云，马超， 黄忠  李逵'

namelist = re.split(r'[;，.\s]\s*', names)
print(namelist)</code></pre><p>结果：</p><p><img src="http://47.98.116.174/usr/uploads/2021/11/101279427.png" alt="92186-ifyrm9absei.png" title="92186-ifyrm9absei.png"style=""></p><h3>指定替换函数</h3><p><img src="http://47.98.116.174/usr/uploads/2021/11/4172374648.png" alt="02682-8066x7f0vvh.png" title="02682-8066x7f0vvh.png"style=""></p>

python正则表达式

验证正则表达式的网站

常见语法

点-匹配所有字符

星号-重复匹配任意次

加号-重复匹配多次

花括号-匹配指定次数

贪婪模式和非贪婪模式

对元字符的转义

匹配某种字符类型

方括号-匹配几个字符之一

起始、结束位置和单行、多行模式

括号-组选择

使用正则表达式切割字符串

指定替换函数

2 条评论

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

计算机网络ppt

python正则表达式

JSON数据与Java对象的转换

欢迎使用 Typecho

关于服务器被攻击导致半年的博文以及图片消失

python 协程

python多线程

计算机网络概述

Django入门

JDBC

python正则表达式

验证正则表达式的网站

常见语法

点-匹配所有字符

星号-重复匹配任意次

加号-重复匹配多次

花括号-匹配指定次数

贪婪模式和非贪婪模式

对元字符的转义

匹配某种字符类型

方括号-匹配几个字符之一

起始、结束位置和单行、多行模式

括号-组选择

使用正则表达式切割字符串

指定替换函数

2 条评论

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

python正则表达式

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款