python爬虫 正则表达式解析


Posted in Python onSeptember 28, 2019

这篇文章主要介绍了python爬虫 正则表达式解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

- re.I # 忽略大小写
- re.M # 多行匹配,将正则作用到源数据的每一行
- re.S # 单行匹配,将正则作用到整个源数据,输出一个整体字符串(包括换行符也打印)

string = '''fall in love with you
i love you very much
i love she
i love her'''
# 去除以i开头的每一行数据
re.findall('^i.*',string,re.M)

['i love you very much', 'i love she', 'i love her']

#匹配全部行
string1 = """细思极恐
你的队友在看书
你的敌人在磨刀
你的闺蜜在减肥
隔壁老王在练腰
"""
re.findall('.*',string1,re.S)

['细思极恐\n你的队友在看书\n你的敌人在磨刀\n你的闺蜜在减肥\n隔壁老王在练腰\n', '']

爬取糗事百科中所有的图片进行保存

import requests
import re
import urllib
import os

url = 'https://www.qiushibaike.com/pic/page/%d/?s=5170552'
# 自定义请求头信息
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'
}
# 判断是否存在名为qiutu的文件夹,如果不存在则创建文件夹
if not os.path.exists('./qiutu'):
  os.mkdir('./qiutu')
# 手动输入开始页,结束页
start_page = int(input('start>>>'))
end_page = int(input('end>>>'))

for page in range(start_page,end_page+1):
# 按照每页url形式拼接指定url
  new_url = format(url%page)

# 发起请求
  page_text = requests.get(url=new_url,headers=headers).text

# 使用正则找出page_text页面中所有图片url
  img_url_list = re.findall('<div class="thumb">.*?<img src="(.*?)" alt=.*?</div>',page_text,re.S)

# 给每一个图片url添加https协议头
  for img_url in img_url_list:
    img_url = 'https:' + img_url


 # 将图片url切割去除图片名称,作为存储时图片的名称
    img_name = img_url.split('/')[-1]
    img_path = 'qiutu/' + img_name、


 # 对图片做持久化存储
    urllib.request.urlretrieve(url=img_url,filename=img_path)
    print(img_path,'下载成功')
print('over')

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python连接mysql并提交mysql事务示例
Mar 05 Python
小结Python用fork来创建子进程注意事项
Jul 03 Python
Python常见字典内建函数用法示例
May 14 Python
django加载本地html的方法
May 27 Python
Python爬虫PyQuery库基本用法入门教程
Aug 04 Python
python同时遍历数组的索引和值的实例
Nov 15 Python
Python网页正文转换语音文件的操作方法
Dec 09 Python
Python高级特性与几种函数的讲解
Mar 08 Python
在Python中合并字典模块ChainMap的隐藏坑【推荐】
Jun 27 Python
PyCharm vs VSCode,作为python开发者,你更倾向哪种IDE呢?
Aug 17 Python
Python selenium实现断言3种方法解析
Sep 08 Python
Python编写万花尺图案实例
Jan 03 Python
python爬虫 Pyppeteer使用方法解析
Sep 28 #Python
python安装scipy的步骤解析
Sep 28 #Python
python网络爬虫 CrawlSpider使用详解
Sep 27 #Python
python numpy存取文件的方式
Apr 01 #Python
100行Python代码实现每天不同时间段定时给女友发消息
Sep 27 #Python
使用Fabric自动化部署Django项目的实现
Sep 27 #Python
Win10+GPU版Pytorch1.1安装的安装步骤
Sep 27 #Python
You might like
Linux系统中设置多版本PHP共存配合Nginx服务器使用
2015/12/21 PHP
php+javascript实现的动态显示服务器运行程序进度条功能示例
2017/08/07 PHP
自己的js工具_Form 封装
2009/08/21 Javascript
关于js中for in的缺陷浅析
2013/12/02 Javascript
node.js中的fs.statSync方法使用说明
2014/12/16 Javascript
分享javascript实现的冒泡排序代码并优化
2016/06/05 Javascript
js弹出窗口简单实现代码
2017/03/22 Javascript
BootStrap TreeView使用实例详解
2017/11/01 Javascript
为jquery的ajax请求添加超时timeout时间的操作方法
2018/09/04 jQuery
javascript中如何判断类型汇总
2019/05/14 Javascript
微信小程序 自定义弹窗实现过程(附代码)
2019/12/05 Javascript
JavaScript获取当前url路径过程解析
2019/12/27 Javascript
JS校验与最终登陆界面功能完整示例
2020/01/13 Javascript
node.JS二进制操作模块buffer对象使用方法详解
2020/02/06 Javascript
el-form 多层级表单的实现示例
2020/09/10 Javascript
JavaScript ES 模块的使用
2020/11/12 Javascript
pycharm 使用心得(六)进行简单的数据库管理
2014/06/06 Python
Python中的zip函数使用示例
2015/01/29 Python
python关键字and和or用法实例
2015/05/28 Python
python字符串连接方法分析
2016/04/12 Python
Numpy 将二维图像矩阵转换为一维向量的方法
2018/06/05 Python
pytorch使用tensorboardX进行loss可视化实例
2020/02/24 Python
中国综合网上购物商城:苏宁易购
2016/08/09 全球购物
龟牌英国商店:Turtle Wax Brand Store UK
2019/07/02 全球购物
台湾时尚彩瞳专门店:imeime
2019/08/16 全球购物
市优秀教师事迹材料
2014/02/05 职场文书
中介公司区域经理岗位职责范本
2014/03/02 职场文书
信息管理应届生求职信
2014/03/07 职场文书
公司年会策划方案
2014/05/17 职场文书
行政申诉状范文
2015/05/20 职场文书
运动会通讯稿600字
2015/07/20 职场文书
医院病假条范文
2015/08/17 职场文书
小型企业的绩效考核制度模板
2019/11/21 职场文书
分享一些Java的常用工具
2021/06/11 Java/Android
CSS实现隐藏搜索框功能(动画正反向序列)
2021/07/21 HTML / CSS
游戏《我的世界》澄清Xbox版暂无计划加入光追
2022/04/03 其他游戏