python爬虫 正则表达式解析


Posted in Python onSeptember 28, 2019

这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

- re.I # 忽略大小写
- re.M # 多行匹配,将正则作用到源数据的每一行
- re.S # 单行匹配,将正则作用到整个源数据,输出一个整体字符串(包括换行符也打印)

string = '''fall in love with you
i love you very much
i love she
i love her'''
# 去除以i开头的每一行数据
re.findall('^i.*',string,re.M)

['i love you very much', 'i love she', 'i love her']

#匹配全部行
string1 = """细思极恐
你的队友在看书
你的敌人在磨刀
你的闺蜜在减肥
隔壁老王在练腰
"""
re.findall('.*',string1,re.S)

['细思极恐\n你的队友在看书\n你的敌人在磨刀\n你的闺蜜在减肥\n隔壁老王在练腰\n', '']

爬取糗事百科中所有的图片进行保存

import requests
import re
import urllib
import os

url = 'https://www.qiushibaike.com/pic/page/%d/?s=5170552'
# 自定义请求头信息
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}
# 判断是否存在名为qiutu的文件夹,如果不存在则创建文件夹
if not os.path.exists('./qiutu'):
  os.mkdir('./qiutu')
# 手动输入开始页,结束页
start_page = int(input('start>>>'))
end_page = int(input('end>>>'))

for page in range(start_page,end_page+1):
# 按照每页url形式拼接指定url
  new_url = format(url%page)

# 发起请求
  page_text = requests.get(url=new_url,headers=headers).text

# 使用正则找出page_text页面中所有图片url
  img_url_list = re.findall('<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>',page_text,re.S)

# 给每一个图片url添加https协议头
  for img_url in img_url_list:
    img_url = 'https:' + img_url


 # 将图片url切割去除图片名称,作为存储时图片的名称
    img_name = img_url.split('/')[-1]
    img_path = 'qiutu/' + img_name、


 # 对图片做持久化存储
    urllib.request.urlretrieve(url=img_url,filename=img_path)
    print(img_path,'下载成功')
print('over')

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python循环语句之break与continue的用法
Oct 14 Python
Python合并多个Excel数据的方法
Jul 16 Python
对python添加模块路径的三种方法总结
Oct 16 Python
python实现在图片上画特定大小角度矩形框
Oct 24 Python
python 执行文件时额外参数获取的实例
Dec 18 Python
Python中new方法的详解
Jan 15 Python
Python字典推导式将cookie字符串转化为字典解析
Aug 10 Python
python实现高斯(Gauss)迭代法的例子
Nov 20 Python
python实现替换word中的关键文字(使用通配符)
Feb 13 Python
想学画画?python满足你!
Dec 24 Python
python压包的概念及实例详解
Feb 17 Python
基于PyTorch中view的用法说明
Mar 03 Python
python爬虫 Pyppeteer使用方法解析
Sep 28 #Python
python安装scipy的步骤解析
Sep 28 #Python
python网络爬虫 CrawlSpider使用详解
Sep 27 #Python
python numpy存取文件的方式
Apr 01 #Python
100行Python代码实现每天不同时间段定时给女友发消息
Sep 27 #Python
使用Fabric自动化部署Django项目的实现
Sep 27 #Python
Win10+GPU版Pytorch1.1安装的安装步骤
Sep 27 #Python
You might like
php开发环境配置记录
2011/01/14 PHP
判断PHP数组是否为空的代码
2011/09/08 PHP
php开发留言板的CRUD(增,删,改,查)操作
2012/04/19 PHP
php实现的生成排列算法示例
2019/07/25 PHP
类之Prototype.js学习
2007/06/13 Javascript
javascript中文本框中输入法切换的问题
2013/12/10 Javascript
JS打印组合功能
2016/08/04 Javascript
JavaScript浏览器对象模型BOM(BrowserObjectModel)实例详解
2016/11/29 Javascript
基于vue,vue-router, vuex及addRoutes进行权限控制问题
2018/05/02 Javascript
Vue隐藏显示、只读实例代码
2018/07/18 Javascript
基于Vue实现可以拖拽的树形表格实例详解
2018/10/18 Javascript
微信小程序实现手势滑动效果
2019/08/26 Javascript
解决$store.getters调用不执行的问题
2019/11/08 Javascript
vue实现购物车加减
2020/05/30 Javascript
python实现随机密码字典生成器示例
2014/04/09 Python
Python实现读取机器硬件信息的方法示例
2018/06/09 Python
基于python3实现socket文件传输和校验
2018/07/28 Python
python开启debug模式的方法
2019/06/27 Python
python创建ArcGIS shape文件的实现
2019/12/06 Python
python3连接MySQL8.0的两种方式
2020/02/17 Python
Python semaphore evevt生产者消费者模型原理解析
2020/03/18 Python
图解Python中深浅copy(通俗易懂)
2020/09/03 Python
Python利用pip安装tar.gz格式的离线资源包
2020/09/14 Python
酒店司机岗位职责
2013/12/14 职场文书
安全检查验收制度
2014/01/12 职场文书
家长对老师的评语
2014/04/18 职场文书
安全宣传标语口号
2014/06/06 职场文书
公司证明怎么写
2014/09/22 职场文书
学校领导班子对照检查材料
2014/09/24 职场文书
干部作风建设年活动剖析材料
2014/10/23 职场文书
2014年销售工作总结范文
2014/12/01 职场文书
长城导游词
2015/01/30 职场文书
雨中的树观后感
2015/06/03 职场文书
Python基于百度API识别并提取图片中文字
2021/06/27 Python
Python何绘制带有背景色块的折线图
2022/04/23 Python
zabbix 代理服务器的部署与 zabbix-snmp 监控问题
2022/07/15 Servers