python re正则匹配网页中图片url地址的方法


Posted in Python onDecember 20, 2018

最近写了个python抓取必应搜索首页http://cn.bing.com/的背景图片并将此图片更换为我的电脑桌面的程序,在正则匹配图片url时遇到了匹配失败问题。

要抓取的图片地址如图所示:

python re正则匹配网页中图片url地址的方法

首先,使用这个pattern

reg = re.compile('.*g_img={url: "(http.*?jpg)"')

无论怎么匹配都匹配不到,后来把网页源码抓下来放在notepad++中查看,并用notepad++的正则匹配查找,很轻易就匹配到了,如图:

python re正则匹配网页中图片url地址的方法

后来我写了个测试代码,把图片地址在的那一行保存在一个字符串中,很快就匹配到了,如下面代码所示,data是匹配不到的,然而line是可以匹配到的。

# -*-coding:utf-8-*-
import os
import re
 
f = open('bing.html','r')
 
line = r'''Bnp.Internal.Close(0,0,60056); } });;g_img={url: "https://az12410.vo.msecnd.net/homepage/app/2016hw/BingHalloween_BkgImg.jpg",id:'bgDiv',d:'200',cN'''
data = f.read().decode('utf-8','ignore').encode('gbk','ignore')
 
print " "
 
reg = re.compile('.*g_img={url: "(http.*?jpg)"')
 
if re.match(reg, data):
  m1 = reg.findall(data)
  print m1[0]
else:
  print("data Not match .")
  
print 20*'-'
#print line
if re.match(reg, line):
  m2 = reg.findall(line)
  print m2[0]
else:
  print("line Not match .")

由此可见line和data是有区别的,什么区别呢?那就是data是多行的,包含换行符,而line是单行的,没有换行符。我有在字符串line中加了换行符,结果line没有匹配到。

到这了原因就清楚了。原因就在这句话

re.compile('.*g_img={url: "(http.*?jpg)"')。

后来翻阅python文档,发现re.compile()这个函数的第二个可选参数flags。这个参数是re中定义的常量,有如下常量

re.DEBUG Display debug information about compiled expression.
re.I 
re.IGNORECASE Perform case-insensitive matching; expressions like [A-Z] will match lowercase letters, too. This is not affected by the current locale.
re.L 


re.LOCALE Make \w, \W, \b, \B, \s and \S dependent on the current locale.
re.M 


re.MULTILINE When specified, the pattern character '^' matches at the beginning of the string and at the beginning of each line (immediately following each newline); and the pattern character '$' matches at the end of the string and at the end of each line (immediately preceding each newline). By default, '^' matches only at the beginning of the string, and '$' only at the end of the string and immediately before the newline (if any) at the end of the string.
re.S 


re.DOTALL Make the '.' special character match any character at all, including a newline; without this flag, '.' will match anything except a newline.re.U re.UNICODE Make \w, \W, \b, \B, \d, \D, \s and \S dependent on the Unicode character properties database.New in version 2.0.
re.X 


re.VERBOSE This flag allows you to write regular expressions that look nicer and are more readable by allowing you to visually separate logical sections of the pattern and add comments. Whitespace within the pattern is ignored, except when in a character class or when preceded by an unescaped backslash. When a line contains a # that is not in a character class and is not preceded by an unescaped backslash, all characters from the leftmost such # through the end of the line are ignored.

这里我们需要的就是re.S 让'.'匹配所有字符,包括换行符。修改正则表达式为

reg = re.compile('.*g_img={url: "(http.*?jpg)"', re.S)

即可完美解决问题。

以上这篇python re正则匹配网页中图片url地址的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python中通过threading模块定义和调用线程的方法
Jul 12 Python
Python3导入自定义模块的三种方法详解
Apr 13 Python
如何利用Python分析出微信朋友男女统计图
Jan 25 Python
使用python3调用wxpy模块监控linux日志并定时发送消息给群组或好友
Jun 05 Python
python画双y轴图像的示例代码
Jul 07 Python
python3 使用Opencv打开USB摄像头,配置1080P分辨率的操作
Dec 11 Python
基于打开pycharm有带图片md文件卡死问题的解决
Apr 24 Python
解析Python 偏函数用法全方位实现
Jun 26 Python
python自动提取文本中的时间(包含中文日期)
Aug 31 Python
Python 实现国产SM3加密算法的示例代码
Sep 21 Python
Python批量删除mysql中千万级大量数据的脚本分享
Dec 03 Python
Python编写nmap扫描工具
Jul 21 Python
python使用pdfminer解析pdf文件的方法示例
Dec 20 #Python
python爬取指定微信公众号文章
Dec 20 #Python
在Django中URL正则表达式匹配的方法
Dec 20 #Python
python采集微信公众号文章
Dec 20 #Python
Linux下Pycharm、Anaconda环境配置及使用踩坑
Dec 19 #Python
python爬虫之urllib,伪装,超时设置,异常处理的方法
Dec 19 #Python
python3实现网络爬虫之BeautifulSoup使用详解
Dec 19 #Python
You might like
简单介绍下 PHP5 中引入的 MYSQLI的用途
2007/03/19 PHP
PHP结合jQuery插件ajaxFileUpload实现异步上传文件实例
2020/08/17 PHP
PHP手机短信验证码实现流程详解
2018/05/17 PHP
php 可变函数使用小结
2018/06/12 PHP
Span元素的width属性无效果原因及解决方案
2010/01/15 Javascript
理解Javascript_01_理解内存分配原理分析
2010/10/11 Javascript
JavaScript中的View-Model使用介绍
2011/08/11 Javascript
33个优秀的 jQuery 图片展示插件分享
2012/03/14 Javascript
Js实现当前点击a标签变色突出显示其他a标签回复原色
2013/11/27 Javascript
js中settimeout方法加参数
2014/02/28 Javascript
nodejs教程之入门
2014/11/21 NodeJs
jQuery使用addClass()方法给元素添加多个class样式
2015/03/26 Javascript
Vue实现textarea固定输入行数与添加下划线样式的思路详解
2018/06/28 Javascript
js获取 gif 的帧数的代码实例
2019/09/10 Javascript
element-ui中按需引入的实现
2019/12/25 Javascript
js实现带箭头的进度流程
2020/03/26 Javascript
八种Vue组件间通讯方式合集(推荐)
2020/08/18 Javascript
使用JavaScript实现贪吃蛇游戏
2020/09/29 Javascript
在Vue中使用CSS3实现内容无缝滚动的示例代码
2020/11/27 Vue.js
浅谈python和C语言混编的几种方式(推荐)
2017/09/27 Python
python实现画圆功能
2018/01/25 Python
Python实现去除列表中重复元素的方法小结【4种方法】
2018/04/27 Python
利用PyCharm Profile分析异步爬虫效率详解
2019/05/08 Python
介绍CSS3使用技巧5个
2009/04/02 HTML / CSS
html5的localstorage详解
2017/05/09 HTML / CSS
Mankind西班牙男士护肤品网站:购买皮肤护理、护发和剃须
2017/04/27 全球购物
外贸业务员工作职责
2014/01/06 职场文书
三年级语文教学反思
2014/02/01 职场文书
运动会入场词200字
2014/02/15 职场文书
小学生评语集锦
2014/04/18 职场文书
道路施工安全责任书
2014/07/24 职场文书
医生学习党的群众路线教育实践活动心得体会
2014/11/03 职场文书
因个人原因离职的辞职信范文
2015/05/12 职场文书
刑事上诉状(无罪)
2015/05/23 职场文书
结婚纪念日感言
2015/08/01 职场文书
小学班级标语口号大全
2015/12/26 职场文书