python中正则表达式的使用详解


Posted in Python onOctober 17, 2014

从学习Python至今,发现很多时候是将Python作为一种工具。特别在文本处理方面,使用起来更是游刃有余。

说到文本处理,那么正则表达式必然是一个绝好的工具,它能将一些繁杂的字符搜索或者替换以非常简洁的方式完成。

我们在处理文本的时候,或是查询抓取,或是替换.

一.查找
如果你想自己实现这样的功能模块,输入某一个ip地址,得到这个ip地址所在地区的详细信息.

然后你发现http://ip138.com 可以查出很详细的数据

但是人家没有提供api供外部调用,但是我们可以通过代码模拟查询然后对结果进行抓取.

通过查看这个相应页面的源码,我们可以发现,结果是放在三个<li></li>中的

<table width="80%"  border="0" align="center" cellpadding="0" cellspacing="0">  

    <tr>  

        <td align="center"><h3>ip138.com IP查询(搜索IP地址的地理位置)</h3></td>  

    </tr>  

    <tr>  

        <td align="center"><h1>您查询的IP:121.0.29.231</h1></td>  

    </tr>  

    <tr>  

  

        <td align="center"><ul class="ul1"><li>本站主数据:浙江省杭州市 阿里巴巴</li><li>参考数据一:浙江省杭州市 阿里巴巴</li><li>参考数据二:浙江省杭州市 阿里巴巴</li></ul></td>  

    </tr>  

    <tr>  

        <td align="center">如果您发现查询结果不详细或不正确,请使用<a href="ip_add.asp?ip=121.0.29.231"><font color="#006600"><b>IP数据库自助添加</b></font></a>功能进行修正<br/><br/>  

        <iframe src="/jss/bd_460x60.htm" frameborder="no" width="460" height="60" border="0" marginwidth="0" marginheight="0" scrolling="no"></iframe><br/><br/></td>  

  

    </tr>  

    <form method="get" action="ips8.asp" name="ipform" onsubmit="return checkIP();">  

    <tr>  

        <td align="center">IP地址或者域名:<input type="text" name="ip" size="16"> <input type="submit" value="查询"><input type="hidden" name="action" value="2"></td>  

    </tr><br>  

<br>  

    </form>  

</table>   

如果你了解正则表达式你可能会写出

正则表达式

(?<=<li>).*?(?=</li>)

这里使用了前瞻:lookahead 后顾: lookbehind,这样的好处就是匹配的结果中就不会包含html的li标签了.

如果你对自己写的正则表达式不是很自信的话,可以在一些在线或者本地的正则测试工具进行一些测试,以确保正确.

接下来的工作就是如果用Python实现这样的功能,首先我们得将正则表达式表示出来:

r"(?<=<li>).*?(?=</li>)" 

 Python中字符串前面加上前导r这个字符,代表这个字符串是R aw String(原始字符串),也就是说Python字符串本身不会对字符串中的字符进行转义.这是因为正则表达式也有转义字符之说,如果双重转义的话,易读性很差.

这样的串在Python中我们把它叫做"regular expression pattern"

如果我们对pattern进行编译的话

prog = re.compile(r"(?<=<li>).*?(?=</li>)") 

我们便可以得到一个正则表达式对象regular expression object,通过这个对象我们可以进行相关操作.

比如

result=prog.match(string)  

##这个等同于  

result=re.match(r"(?<=<li>).*?(?=</li>)",string)  

##但是如果这个正则需要在程序匹配多次,那么通过正则表达式对象的方式效率会更高 

接下来就是查找了,假设我们的html结果已经以html的格式存放在text中,那么通过

result_list = re.findall(r"(?<=<li>).*?(?=</li>)",text) 

便可以取得所需的结果列表.

二.替换
使用正则表达式进行替换非常的灵活.

比如之前我在阅读Trac这个系统中wiki模块的源代码的时候,就发现其wiki语法的实现就是通过正则替换进行的.

在使用替换的时候会涉及到正则表达式中的Group分组的概念.

假设wiki语法中使用!表示转义字符即感叹号后面的功能性字符会原样输出,粗体的语法为

写道
'''这里显示为粗体'''
 那么有正则表达式为

r"(?P<bold>!?''')" 

  这里的?P<bold>是Python正则语法中的一部分,表示其后的group的名字为"bold"

  下面是替换时的情景,其中sub函数的第一个参数是pattern,第二个参数可以是字符串也可以是函数,如果是字符串的话,那么就是将目标匹配的结果替换成指定的结果,而如果是函数,那么函数会接受一个match object的参数,并返回替换后的字符串,第三个参数便是源字符串.

result = re.sub(r"(?P<bold>!?''')", replace, line) 

每当匹配到一个三单引号,replace函数便运行一次,可能这时候需要一个全局变量记录当前的三单引号是开还是闭,以便添加相应的标记.

在实际的trac wiki的实现的时候,便是这样通过一些标记变量,来记录某些语法标记的开闭,以决定replace函数的运行结果.

--------------------

示例

一. 判断字符串是否是全部小写

代码

# -*- coding: cp936 -*-

import re  

s1 = 'adkkdk'

s2 = 'abc123efg'
an = re.search('^[a-z]+$', s1)

if an:

    print 's1:', an.group(), '全为小写' 

else:

    print s1, "不全是小写!"
an = re.match('[a-z]+$', s2)

if an:

    print 's2:', an.group(), '全为小写' 

else:

    print s2, "不全是小写!"

结果

 python中正则表达式的使用详解

究其因

1. 正则表达式不是python的一部分,利用时需要引用re模块

2. 匹配的形式为: re.search(正则表达式, 带匹配字串)或re.match(正则表达式, 带匹配字串)。两者区别在于后者默认以开始符(^)开始。因此,

re.search('^[a-z]+$', s1) 等价于 re.match('[a-z]+$', s2)
3. 如果匹配失败,则an = re.search('^[a-z]+$', s1)返回None

group用于把匹配结果分组

例如

import re

a = "123abc456"

print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(0)   #123abc456,返回整体

print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(1)   #123

print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(2)   #abc

print re.search("([0-9]*)([a-z]*)([0-9]*)",a).group(3)   #456

1)正则表达式中的三组括号把匹配结果分成三组

group() 同group(0)就是匹配正则表达式整体结果

group(1) 列出第一个括号匹配部分,group(2) 列出第二个括号匹配部分,group(3) 列出第三个括号匹配部分。

2)没有匹配成功的,re.search()返回None

3)当然郑则表达式中没有括号,group(1)肯定不对了。

二.  首字母缩写词扩充

具体示例

FEMA   Federal Emergency Management Agency
IRA    Irish Republican Army
DUP    Democratic Unionist Party

FDA    Food and Drug Administration
OLC    Office of Legal Counsel
分析

缩写词

FEMA
分解为

F*** E*** M*** A***
规律

  大写字母 + 小写(大于等于1个)+ 空格
参考代码

import re

def expand_abbr(sen, abbr):

    lenabbr = len(abbr)

    ma = '' 

    for i in range(0, lenabbr):

        ma += abbr[i] + "[a-z]+" + ' '

    print 'ma:', ma

    ma = ma.strip(' ')

    p = re.search(ma, sen)

    if p:

        return p.group()

    else:

        return ''
print expand_abbr("Welcome to Algriculture Bank China", 'ABC')

结果

python中正则表达式的使用详解

问题

上面代码对于例子中的前3个是正确的,但是后面的两个就错了,因为大写字母开头的词语之间还夹杂着小写字母词

规律

大写字母 + 小写(大于等于1个)+ 空格 + [小写+空格](0次或1次)

参考代码

import re

def expand_abbr(sen, abbr):

    lenabbr = len(abbr)

    ma = '' 

    for i in range(0, lenabbr-1):

        ma += abbr[i] + "[a-z]+" + ' ' + '([a-z]+ )?'

    ma += abbr[lenabbr-1] + "[a-z]+"

    print 'ma:', ma

    ma = ma.strip(' ')

    p = re.search(ma, sen)

    if p:

        return p.group()

    else:

        return ''
print expand_abbr("Welcome to Algriculture Bank of China", 'ABC')

技巧

中间的 小写字母集合+一个空格,看成一个整体,就加个括号。要么同时有,要么同时没有,这样需要用到?,匹配前方的整体。

三. 去掉数字中的逗号

具体示例

在处理自然语言时123,000,000如果以标点符号分割,就会出现问题,好好的一个数字就被逗号肢解了,因此可以先下手把数字处理干净(逗号去掉)。

分析

数字中经常是3个数字一组,之后跟一个逗号,因此规律为:***,***,***

正则式

[a-z]+,[a-z]?

参考代码3-1

import re
sen = "abc,123,456,789,mnp"

p = re.compile("\d+,\d+?")
for com in p.finditer(sen):

    mm = com.group()

    print "hi:", mm

    print "sen_before:", sen

    sen = sen.replace(mm, mm.replace(",", ""))

    print "sen_back:", sen, '\n'

结果

python中正则表达式的使用详解

技巧

使用函数finditer(string[, pos[, endpos]]) | re.finditer(pattern, string[, flags]):

搜索string,返回一个顺序访问每一个匹配结果(Match对象)的迭代器。     

参考代码3-2

sen = "abc,123,456,789,mnp"

while 1:

    mm = re.search("\d,\d", sen)

    if mm:

        mm = mm.group()

        sen = sen.replace(mm, mm.replace(",", ""))

        print sen

    else:

        break

结果

python中正则表达式的使用详解

延伸

这样的程序针对具体问题,即数字3位一组,如果数字混杂与字母间,干掉数字间的逗号,即把“abc,123,4,789,mnp”转化为“abc,1234789,mnp”

思路

更具体的是找正则式“数字,数字”找到后用去掉逗号的替换

参考代码3-3

sen = "abc,123,4,789,mnp"

while 1:

    mm = re.search("\d,\d", sen)

    if mm:

        mm = mm.group()

        sen = sen.replace(mm, mm.replace(",", ""))

        print sen

    else:

        break

print sen

结果

python中正则表达式的使用详解

四. 中文处理之年份转换(例如:一九四九年--->1949年)

中文处理涉及到编码问题。例如下边的程序识别年份(****年)时

# -*- coding: cp936 -*-

import re

m0 =  "在一九四九年新中国成立"

m1 =  "比一九九零年低百分之五点二"

m2 =  '人一九九六年击败俄军,取得实质独立'
def fuc(m):

    a = re.findall("[零|一|二|三|四|五|六|七|八|九]+年", m)

    if a:

        for key in a:

            print key

    else:

        print "NULL"
fuc(m0)

fuc(m1)

fuc(m2)

运行结果

python中正则表达式的使用详解

可以看出第二个、第三个都出现了错误。

改进——准化成unicode识别

# -*- coding: cp936 -*-

import re

m0 =  "在一九四九年新中国成立"

m1 =  "比一九九零年低百分之五点二"

m2 = '人一九九六年击败俄军,取得实质独立'
def fuc(m):

    m = m.decode('cp936')

    a = re.findall(u"[\u96f6|\u4e00|\u4e8c|\u4e09|\u56db|\u4e94|\u516d|\u4e03|\u516b|\u4e5d]+\u5e74", m)
    if a:

        for key in a:

            print key

    else:

        print "NULL"
fuc(m0)

fuc(m1)

fuc(m2)

结果

python中正则表达式的使用详解

识别出来可以通过替换方式,把汉字替换成数字。

参考

numHash = {}

numHash['零'.decode('utf-8')] = '0'

numHash['一'.decode('utf-8')] = '1'

numHash['二'.decode('utf-8')] = '2'

numHash['三'.decode('utf-8')] = '3'

numHash['四'.decode('utf-8')] = '4'

numHash['五'.decode('utf-8')] = '5'

numHash['六'.decode('utf-8')] = '6'

numHash['七'.decode('utf-8')] = '7'

numHash['八'.decode('utf-8')] = '8'

numHash['九'.decode('utf-8')] = '9'
def change2num(words):

    print "words:",words

    newword = ''

    for key in words:

        print key

        if key in numHash:

            newword += numHash[key]

        else:

            newword += key

    return newword
def Chi2Num(line):

    a = re.findall(u"[\u96f6|\u4e00|\u4e8c|\u4e09|\u56db|\u4e94|\u516d|\u4e03|\u516b|\u4e5d]+\u5e74", line)

    if a:

        print "------"

        print line

        for words in a:

            newwords = change2num(words)

            print words

            print newwords

            line = line.replace(words, newwords)

    return line
Python 相关文章推荐
Python编程中的文件读写及相关的文件对象方法讲解
Jan 19 Python
Python实现通过文件路径获取文件hash值的方法
Apr 29 Python
Python中关于Sequence切片的下标问题详解
Jun 15 Python
Python中函数及默认参数的定义与调用操作实例分析
Jul 25 Python
virtualenv实现多个版本Python共存
Aug 21 Python
浅谈python函数之作用域(python3.5)
Oct 27 Python
Python实现简易过滤删除数字的方法小结
Jan 09 Python
python制作简单五子棋游戏
Jun 18 Python
centos+nginx+uwsgi+Django实现IP+port访问服务器
Nov 15 Python
tensorflow保持每次训练结果一致的简单实现
Feb 17 Python
记录一下scrapy中settings的一些配置小结
Sep 28 Python
Pytorch之扩充tensor的操作
Mar 04 Python
基于python编写的微博应用
Oct 17 #Python
python连接oracle数据库实例
Oct 17 #Python
Python 检查数组元素是否存在类似PHP isset()方法
Oct 14 #Python
跟老齐学Python之Import 模块
Oct 13 #Python
跟老齐学Python之类的细节
Oct 13 #Python
python修改注册表终止360进程实例
Oct 13 #Python
Python原始字符串(raw strings)用法实例
Oct 13 #Python
You might like
php IP转换整形(ip2long)的详解
2013/06/06 PHP
PHP的变量类型和作用域详解
2014/03/12 PHP
php 购物车完整实现代码
2014/06/05 PHP
PHP时间类完整实例(非常实用)
2015/12/25 PHP
laravel框架使用FormRequest进行表单验证,验证异常返回JSON操作示例
2020/02/18 PHP
PHP fopen中文文件名乱码问题解决方案
2020/10/28 PHP
使用javascript访问XML数据的实例
2006/12/27 Javascript
jquery下为Event handler传递动态参数的代码
2011/01/06 Javascript
JavaScript 和 Java 的区别浅析
2013/07/31 Javascript
window.onresize 多次触发的解决方法
2013/11/08 Javascript
jquery根据锚点offset值实现动画切换
2014/09/11 Javascript
使用angular写一个hello world
2015/01/23 Javascript
JavaScript的Polymer框架中dom-repeat与VM的相关操作
2015/07/29 Javascript
javascript图片延迟加载实现方法及思路
2015/12/31 Javascript
基于JavaScript实现新增内容滚动播放效果附完整代码
2017/08/24 Javascript
如何在JavaScript中优雅的提取循环内数据详解
2019/03/04 Javascript
vue实现从外部修改组件内部的变量的值
2020/07/30 Javascript
[56:24]DOTA2上海特级锦标赛主赛事日 - 3 胜者组第二轮#1Liquid VS MVP.Phx第二局
2016/03/04 DOTA
Python中用于去除空格的三个函数的使用小结
2015/04/07 Python
Django入门使用示例
2017/12/12 Python
python3实现字符串的全排列的方法(无重复字符)
2018/07/07 Python
Python常见的pandas用法demo示例
2019/03/16 Python
什么是python的id函数
2020/06/11 Python
Python创建文件夹与文件的快捷方法
2020/12/08 Python
html5 桌面提醒:Notifycations应用介绍
2012/11/27 HTML / CSS
Vision Direct比利时:在线订购隐形眼镜
2019/08/27 全球购物
会计学个人自荐信模板
2013/12/13 职场文书
计算机数据库专业职业生涯规划书
2014/02/08 职场文书
农林环境专业求职信
2014/03/13 职场文书
机关门卫的岗位职责
2014/04/29 职场文书
绿色环保演讲稿
2014/05/10 职场文书
颂军魂爱军营演讲稿
2014/09/13 职场文书
山东省召开党的群众路线教育实践活动总结大会新闻稿
2014/10/21 职场文书
SQL Server中交叉联接的用法详解
2021/04/22 SQL Server
Mongo服务重启异常问题的处理方法
2021/07/01 MongoDB
td 内容自动换行 table表格td设置宽度后文字太多自动换行
2022/12/24 HTML / CSS