编程 Python

Python for Informatics 第11章之正则表达式（四）

Posted in Python onApril 21, 2016

注：以下文章原文来自于Dr Charles Severance 的《Python for Informatics》

11.3 组合查询和抽取

如果我们想以“X-”字符串开头的行中找到数字，就像下面两行字符串：

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000

但我们不只是要任意行中的任意浮点数，而是具备上面格式的行中的数字。

我们可以创建以下正则表达式来选择这样的行：

^X-.*: [0-9.]+

这个表达式的含义是以“X-”两个字符开头，后面跟了任意个字符“.*"，接着是一个冒号":"和空格" "，在空格之后呢是一个及以上的数字或小数点“[0-9.]+”。大家要注意的是方括号中的"[.]"不是匹配任何字符，而是匹配真正的"."，这与方括号外的"."要予以区分。

这是一个非常紧凑的表达式，它将非常匹配我们感兴趣的行：

import re
hand = open('mobx-short.txt')
for line in hand:
line = line.rstrip()
if re.search('^X-.*: [0-9.]+', line)
print(line)

当我们运行这个程序，我们可以看到我们想要的数据被完美的过滤显示。

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6178
X-DSPAM-Probability: 0.0000

但是我们必须使用split解决提取数字的问题。然而当这个问题简单到能用split解决时，我们可以使用正则表达式的另一特点，一步达到查找和解析功能。

圆括号()是正则表达式中的另一特殊字符。当我们添加圆括号至表达式中，在字符串的匹配过程中它们将被忽略，但是当你使用findall()时，圆括号表示你想整个正则表达式被匹配，但是你只抽取位于圆括号内你感兴趣的那部分字符串。

所以我们对程序修改如下：

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('^X-.*: ([0-9.]+)', line)
if len(x) > 0 :
print(x)

我们在正则表达式中对匹配浮点数字部分添加圆括号，并且用findall()代替search()，返回我们想要的浮点数字部分。这个程序的输出如下：

['0.8475']
['0.0000']
['0.6178']
['0.0000']
['0.6961']
['0.0000']
..

虽然这些在列表中的数字还需要从字符串转换为浮点数，但是我们应用正则表达式的能力同时查找和抽取了我们感兴趣的的信息。

下面是使用这个技巧的另一个案例。如果你查看文件，你会发现有许多行是这样的格式：

Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772

如果我们想用同样的技巧抽取所有修订号（行末尾的整数），我们可以这样编写代码：

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('^Details:.*rev=([0-9]+)', line)
if len(x) > 0 :
print(x)

我们的正则表达式的是这样的，以"Details:"开头，之后可以是任意字符”.*"，然后是"rev="，最后是一个以上的数字。我们希望行是匹配整个正则表达式，但我们只需要圆括号中"[0-9]+"的数字。当我们运行程序时，将得到以下输出：

['39772']
['39771']
['39770']
['39769']
...

记住，"[0-9]+"是贪婪的，它将尝试抽取任何可能的数字，所以我们得到的每个字符串都有五个数字。正则表达式库在行的开头和结尾两个方向进行扩展，只到它数到一个非数字的字符。

我们可以用正则表达式重做本书先前的一个练习。在这个练习中我们对每个邮件的时间感兴趣，我们寻找的行的格式如下：

From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

并且我们想抽取每一行中日期中的小时信息。先前我们通过两次调用split实现。第一次我们将行分离成单词，然后我们对第五个单词基于冒号再次分离，拉出我们感兴趣的两个字符。

假定要查找的行是良好格式化的，那么只要想到少的代码就可以实现。但是当你为确保程序中碰到不具备这样格式而失效，而添加必要的错误检验（或者一个try/except块）时，这个代码将会膨胀到10-15行，并且难以读懂。

我们可以用下面的正则表达式使工作更简单：

^From .* [0-9][0-9]：

这个表达式的含义是以"From "开头（注意空格），然后跟着任意个字符".*"，接着又是一个空格，然后是两个数字"[0-9][0-9]"，再接着是一个冒号。我们要找的就是具备这样格式的行。

为了在findall中只抽出表示小时的两位数字，我们将表达式修改如下：

^From .* ([0-9][0-9])：

　最后这个程序是这样的：

import re
hand = open('mbox-short.txt')
for line in hand:
line = line.rstrip()
x = re.findall('ˆFrom .* ([0-9][0-9]):', line)
if len(x) > 0 : 
print(x)

程序运行结果如下：

['09']
['18']
['16']
['15']
...

相关阅读：

关于Python for Informatics 第11章之正则表达式（四）就给大家介绍到这里，希望对大家有所帮助。后续还会持续更新，更多精彩内容敬请关注！

Python for Informatics 第11章之正则表达式（四）

- Author -

徘徊在海岛

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python常用小技巧总结

Jun 01 Python

深入讲解Python函数中参数的使用及默认参数的陷阱

Mar 13 Python

Scrapy-redis爬虫分布式爬取的分析和实现

Feb 07 Python

python使用matplotlib绘图时图例显示问题的解决

Apr 27 Python

python多进程中的内存复制(实例讲解)

Jan 05 Python

python 循环读取txt文档并转换成csv的方法

Oct 26 Python

python用opencv批量截取图像指定区域的方法

Jan 24 Python

python 多进程共享全局变量之Manager()详解

Aug 15 Python

python deque模块简单使用代码实例

Mar 12 Python

python实现在内存中读写str和二进制数据代码

Apr 24 Python

python反扒机制的5种解决方法

Feb 06 Python

python爬虫之利用selenium模块自动登录CSDN

Apr 22 Python

Python for Informatics 第11章之正则表达式（二）

Apr 21 #Python

Python for Informatics 第11章正则表达式(一)

Apr 21 #Python

编写Python爬虫抓取暴走漫画上gif图片的实例分享

Apr 20 #Python

Ruby使用eventmachine为HTTP服务器添加文件下载功能

Apr 20 #Python

Python实现HTTP协议下的文件下载方法总结

Apr 20 #Python

详解Python命令行解析工具Argparse

Apr 20 #Python

利用Python如何生成随机密码

Apr 20 #Python

You might like

Terran魔法科技

2020/03/14 星际争霸

php echo 输出字符串函数详解

2010/05/13 PHP

PHP警告Cannot use a scalar value as an array的解决方法

2012/01/11 PHP

PHP中替换键名的简易方法示例详解

2014/01/07 PHP

PHP可变变量学习小结

2015/11/29 PHP

php array_values 返回数组的值实例详解

2016/11/17 PHP

JavaScript语法着色引擎（demo及打包文件下载）

2007/06/13 Javascript

理解Javascript_06_理解对象的创建过程

2010/10/15 Javascript

通过JavaScript控制字体大小的代码

2011/10/04 Javascript

ajax页面无刷新 IE下遭遇Ajax缓存导致数据不更新的问题

2012/12/11 Javascript

用js判断页面是否加载完成实现代码

2012/12/11 Javascript

DWZ table的原生分页浅谈

2013/03/01 Javascript

Js日期选择器并自动加入到输入框中示例代码

2013/08/02 Javascript

node.js中的fs.createReadStream方法使用说明

2014/12/17 Javascript

javascript实现给定半径求出圆的面积

2015/06/26 Javascript

webpack4之SplitChunksPlugin使用指南

2018/06/12 Javascript

Vue.js实现的计算器功能完整示例

2018/07/11 Javascript

js中数组对象去重的两种方法

2019/01/18 Javascript

Vue数据双向绑定底层实现原理

2019/11/22 Javascript

解决vuex刷新数据消失问题

2020/11/12 Javascript

详解vue之自行实现派发与广播(dispatch与broadcast)

2021/01/19 Vue.js

Python Tkinter简单布局实例教程

2014/09/03 Python

python去除所有html标签的方法

2015/05/05 Python

Python随机生成信用卡卡号的实现方法

2015/05/14 Python

浅析python中while循环和for循环

2019/11/19 Python

解决Tensorflow2.0 tf.keras.Model.load_weights() 报错处理问题

2020/06/12 Python

python -v 报错问题的解决方法

2020/09/15 Python

Django框架请求生命周期实现原理

2020/11/13 Python

美国家用电器和电子产品商店：Abt

2016/09/06 全球购物

Europcar德国：全球汽车租赁领域的领导者

2018/08/15 全球购物

岗位聘任报告

2015/03/02 职场文书

业务员岗位职责范本

2015/04/03 职场文书

队列队形口号

2015/12/25 职场文书

企业愿景口号

2015/12/25 职场文书

四年级数学教学反思

2016/02/16 职场文书

2019最新版火锅店的创业计划书！

2019/07/12 职场文书