编程 Python

详解Python 正则表达式模块

Posted in Python onNovember 05, 2018

由于最近需要使用爬虫爬取数据进行测试，所以开始了爬虫的填坑之旅，那么首先就是先系统的学习下关于正则相关的知识啦。所以将下面正则方面的知识点做了个整理。语言环境为Python。主要讲解下Python的Re模块。

下面的语法我就主要列出一部分，剩下的在python官网直接查阅即可： docs.python.org/3/library/r…

一、基础语法总结

1.1、匹配单个字符

a . \d \D \w \W \s \S [...] [^...]

匹配单个字符（.）

规则：匹配除换行之外的任意字符

In [24]: re.findall("f.o","foo is not fao")
Out[24]: ['foo', 'fao']

匹配任意（非）数字字符（\d \D）

\d [0-9]
\D [^0-9]

匹配任意（非）普通字符（\w \W）

\w 普通字符包括[_0-9A-Za-z] 同时也包括汉字
\W 非普通字符

匹配任意（非）空字符（\s \S）

\s 匹配任意空字符 [\r\n\t]
\S 匹配任意非空字符

匹配字符集合（[...]）

[A-Z][a-z][0-9][_123a-z]

匹配字符集（[^...]）

规则：字符集取非，除列出的字符之外的任意一个字符

[^abc] --> 除a b c之外任意字符

1.2、匹配多个字符

* 匹配0次或者多次
+ 匹配1次或者多次
? 匹配0次或者1次
{m} 匹配m次
{m,n} 匹配m次到n次区间内的任意一次

1.3、匹配位置

^ 匹配开始位置
$ 匹配结束位置
\A 匹配开始位置
\Z 匹配结束位置
\b 匹配单词边界位置（一般用于首字母大写的匹配）
\B 匹配非单词边界问题

1.4、转义

在正则表达式中有一类特殊字符需要转移，只需要在特殊字符之间加上 \ 表示转移即可

. * + ? ^ $ [] {} () | \

1.5、子组

使用() 可以为正则表达式建立内部分组，子组为正则表达式的一部分，可以看做一个内部整体。

In [61]: re.search(r"(https|http|ftp):\/\/\w+\.\w+\.(com|cn)","https://www.baidu.com").group(0)
Out[61]: 'https://www.baidu.com'
In [62]: re.search(r"(https|http|ftp):\/\/\w+\.\w+\.(com|cn)","https://www.baidu.com").group(1)
Out[62]: 'https'

1.6、贪婪模式和非贪婪模式

正则表达式的重复匹配总是尽可能多的向后匹配更多的内容。贪婪模式包括：* + ? {m,n}

非贪婪模式：尽可能少的匹配内容贪婪模式转换为非贪婪模式：*? +? ?? {m,n}?

In [106]: re.findall(r"ab+?","abbbbbbbb")
Out[106]: ['ab']
In [107]: re.findall(r"ab??","abbbbbbbb")
Out[107]: ['a']

二、Re模块

详解Python 正则表达式模块

接下来我所有函数里面的参数解释如下：

pattern：正则表达式
string：目标字符串
pos：截取目标字符串起始位置
endpose：截取目标字符串结束位置
flags:功能标志
replaceStr：替换的字符串
max：最多替换几处（默认替换全部）

有上图我们看出来，接下来我们要将的Python中re模块、regex对象、match对象三者之间是存在一定关系的。

1、re模块的compile方法返回一个regex对象
2、re模块和regex对象的finditer()、fullmatch()、match()、search()等方法返回一个match对象
3、他们分别有自己的属性和方法

2.1、compile

regex = re.compile(pattern, flags = 0) # 生成正则表达式对象

2.2、findall

re.findall(pattern,string,pos,endpose) # 从目标字符串中匹配所有符合条件的内容

2.3、split

re.split(pattern,string,flags) #根据正则表达式对目标字符串进行分割

In [79]: re.split(r'\s+',"Hello World")
Out[79]: ['Hello', 'World']

2.4、sub

re.sub(pattern,replaceStr,string,max,flags)

In [80]: re.sub(r'\s+',"##","hello world")
Out[80]: 'hello##world'

2.5、subn

re.subn(pattern,replaceStr,string,max,flags) #功能同sub，但是返回值返回替换后的字符串和替换了几处

In [80]: re.sub(r'\s+',"##","hello world")
Out[80]: ('hello##world',1)

2.6、finditer

re.finditer(pattern,string) #使用正则表达式匹配目标字符串，返回一个match对象，match对象调用group()之后才能拿到值

In [87]: it = re.finditer(r'\d+',"2014nianshiqiqngduo 08aoyun 512dizhen")

In [88]: for i in it:
 ....: print(i)
 ....: 
<_sre.SRE_Match object at 0x7f0639767920>
<_sre.SRE_Match object at 0x7f0639767ac0>
<_sre.SRE_Match object at 0x7f0639767920>
In [93]: it = re.finditer(r'\d+',"2014nianshiqiqngduo 08aoyun 512dizhen")
In [94]: for i in it:
 ....: print(i.group())
 ....: 
2014
08
512

2.7、fullmatch

fullmatch(pattern,string,flags) #完全匹配目标字符串，相当于加了^ 和 $

2.8、match

re.match(pattern,string,flags) #匹配目标字符串开头的位置

2.9、search

re.search(pattern,string,flags) # 正则表达式匹配目标字符串，只匹配第一处

三、一些练习题

3.1、匹配首字母大写的单词

import re
f = open('test.txt')
pattern= r'\b[A-Z][a-zA-Z]*\s*'
# pattern= r'\b[A-Z]\S'
L = []
for i in f:
 L += re.findall(pattern,i)
print(L)

test.txt文档内容如下：

Hello World -12.6
Nihao 123
How are you -12
1.24
asdk 34%,
占比 1/2
2003 - 2005./%

3.2、匹配数字（正数、负数、小数、百分数、分数）

import re
pattern = "-?\d+((/?\d+)|((\.)?\d+)|((\%)?))"
f = open('test.txt')
l = []
for line in f:
 l += re.finditer(pattern,line)
for i in l:
 print(i.group())

总结

以上所述是小编给大家介绍的Python 正则表达式模块，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

详解Python 正则表达式模块

- Author -

Cassie1492949236626

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python操作ssh实现服务器日志下载的方法

Jun 03 Python

python过滤字符串中不属于指定集合中字符的类实例

Jun 30 Python

python入门前的第一课 python怎样入门

Mar 06 Python

Pandas标记删除重复记录的方法

Apr 08 Python

Django-Rest-Framework 权限管理源码浅析(小结)

Nov 12 Python

Python实现简易过滤删除数字的方法小结

Jan 09 Python

Python中按键来获取指定的值

Mar 02 Python

python字符串Intern机制详解

Jul 01 Python

浅析Django中关于session的使用

Dec 30 Python

Python字典深浅拷贝与循环方式方法详解

Feb 09 Python

Python 去除字符串中指定字符串

Mar 05 Python

Python Json数据文件操作原理解析

May 09 Python

用python3教你任意Html主内容提取功能

Nov 05 #Python

用Python实现读写锁的示例代码

Nov 05 #Python

详解如何为eclipse安装合适版本的python插件pydev

Nov 04 #Python

详解Python下Flask-ApScheduler快速指南

Nov 04 #Python

Python中修改字符串的四种方法

Nov 02 #Python

Python中flatten( )函数及函数用法详解

Nov 02 #Python

[原创]Python入门教程5. 字典基本操作【定义、运算、常用函数】

Nov 01 #Python

You might like

支付宝接口开发集成支付环境小结

2015/03/17 PHP

比较简单实用的使用正则三种版本的js去空格处理方法

2007/11/18 Javascript

jquery自动完成插件(autocomplete)应用之PHP版

2009/12/15 Javascript

基于jquery的图片幻灯展示源码

2012/07/15 Javascript

js获取当前月的第一天和最后一天的小例子

2013/11/18 Javascript

js鼠标悬浮出现遮罩层的方法

2015/01/28 Javascript

javascript实现密码强度显示

2015/03/18 Javascript

jquery中object对象循环遍历的方法

2015/12/18 Javascript

JavaScript预解析及相关技巧分析

2016/04/21 Javascript

JS获取随机数和时间转换的简单实例

2016/07/10 Javascript

微信小程序之绑定点击事件实例详解

2017/07/07 Javascript

js链表操作(实例讲解)

2017/08/29 Javascript

VsCode插件整理（小结）

2017/09/14 Javascript

详解NODEJS的http实现

2018/01/04 NodeJs

玩转vue的slot内容分发

2018/09/22 Javascript

vue项目环境变量配置的实现方法

2018/10/12 Javascript

layui button 按钮弹出提示窗口,确定才进行的方法

2019/09/06 Javascript

JavaScript大数相加相乘的实现方法实例

2020/10/18 Javascript

解决vue项目中遇到 Cannot find module ‘chalk‘ 报错的问题

2020/11/05 Javascript

浅谈Vue static 静态资源路径和 style问题

2020/11/07 Javascript

使用Python生成随机密码的示例分享

2016/02/18 Python

Python查找文件中包含中文的行方法

2018/12/19 Python

Django实现跨域的2种方法

2019/07/31 Python

Python:二维列表下标互换方式(矩阵转置)

2019/12/02 Python

Python新手学习raise用法

2020/06/03 Python

html5中如何将图片的绝对路径转换成文件对象

2018/01/11 HTML / CSS

秘鲁购物网站：Linio秘鲁

2017/04/07 全球购物

类和结构的区别

2012/08/15 面试题

《阳光》教学反思

2014/02/23 职场文书

建设工地安全标语

2014/06/07 职场文书

学校党支部公开承诺书

2015/04/30 职场文书

python3 sqlite3限制条件查询的操作

2021/04/07 Python

css3 利用transform-origin 实现圆点分布在大圆上布局及旋转特效

2021/04/29 HTML / CSS

Golang 编译成DLL文件的操作

2021/05/06 Golang

Python 快速验证代理IP是否有效的方法实现

2021/07/15 Python

mysql sum(if())和count(if())的用法说明

2022/01/18 MySQL