【Python爬虫】Re(正则表达式)库入门

 2023-09-06 阅读 19 评论 0

摘要:正则表达式的概念 正则表达式的语法 Re库的基本使用 练习: >>> import re >>> match=re.search(r'[1-9]\d{5}','BIT 100081') >>> if match:print(match.group(0))100081 >>

正则表达式的概念

 

 

 

 

 

 

 

 

 

 

 正则表达式的语法

 

 

 

 

 

 

 

 

 

 

 

 

 

  Re库的基本使用

 

 

 

 

 

 

 

 

 

 

 

 

 练习:

>>> import re
>>> match=re.search(r'[1-9]\d{5}','BIT 100081')
>>> if match:print(match.group(0))100081
>>> 

 

 练习:

>>> import re
>>> match=re.match(r'[1-9]\d{5}','BIT 100081')
>>> if match:match.group(0)>>> match.group(0)
Traceback (most recent call last):File "<pyshell#5>", line 1, in <module>match.group(0)
AttributeError: 'NoneType' object has no attribute 'group'
>>> match=re.match(r'[1-9]\d{5}','100081 BIT')
>>> if match:match.group(0)'100081'
>>> 

 

 练习:

>>> import re
>>> ls=re.findall(r'[1-9]\d{5}','BIT 100081 TSU100084')
>>> ls
['100081', '100084']
>>> 

 

 练习:

>>> import re
>>> re.split(r'[1-9]\d{5}','BIT100081 TSU100084')
['BIT', ' TSU', '']
>>> re.split(r'[1-9]\d{5}','BIT100081 TSU100084',maxsplit=1)
['BIT', ' TSU100084']
>>> 

 

 练习:

>>> import re
>>> for m in re.finditer(r'[1-9]\d{5}','BIT100081 TSU100084'):if m:print(m.group(0))100081
100084

 

 练习:

>>> import re
>>> re.sub(r'[1-9]\d{5}',':zipcode','BIT100081 TSU100084')
'BIT:zipcode TSU:zipcode'
>>> 

 

 

 

 

 Re库的match对象

>>> import re
>>> match=re.search(r'[1-9]\d{5}','BIT 100081')
>>> if match:print(match.group(0))100081
>>> type(match)
<class 're.Match'>
>>> 

 

 

 

 

 练习:

>>> import re
>>> m=re.search(r'[1-9]\d{5}','BIT 100081 TSU100084')
>>> m.string
'BIT 100081 TSU100084'
>>> m.re
re.compile('[1-9]\\d{5}')
>>> m.pos
0
>>> m.endpos
20
>>> m.group(0)
'100081'
>>> m.start()
4
>>> m.end()
10
>>> m.span()
(4, 10)
>>> 

Re库的贪婪匹配和最小匹配

 

 

 

 

 

 

 

版权声明:本站所有资料均为网友推荐收集整理而来,仅供学习和研究交流使用。

原文链接:https://hbdhgg.com/3/5910.html

发表评论:

本站为非赢利网站,部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们删除!

Copyright © 2022 匯編語言學習筆記 Inc. 保留所有权利。

底部版权信息