浅谈Python采集网页时正则表达式匹配换行符的问题


Posted in Python onDecember 20, 2018

如下所示:

p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #这样采集html时出错,采集不到数据,正则中 . 是不能匹配换行符,改成如下:
p1 = r'(?<=<div class="ds_cr">)([\s\S]*?)(?=<div id="pageurl">)' # 这是我们写的正则表达式规则,你现在可以不理解啥意思

[\s\S]

\s

匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。

\S

匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

以上这篇浅谈Python采集网页时正则表达式匹配换行符的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python str与repr的区别
Mar 23 Python
使用python编写批量卸载手机中安装的android应用脚本
Jul 21 Python
Python 文件管理实例详解
Nov 10 Python
Python实现拷贝多个文件到同一目录的方法
Sep 19 Python
Python实现的人工神经网络算法示例【基于反向传播算法】
Nov 11 Python
python面向对象入门教程之从代码复用开始(一)
Dec 11 Python
分享PyCharm的几个使用技巧
Nov 10 Python
python构造函数init实例方法解析
Jan 19 Python
Python获取二维数组的行列数的2种方法
Feb 11 Python
python生成13位或16位时间戳以及反向解析时间戳的实例
Mar 03 Python
安装Anaconda3及使用Jupyter的方法
Oct 27 Python
Python图像处理之膨胀与腐蚀的操作
Feb 07 Python
Python实现正则表达式匹配任意的邮箱方法
Dec 20 #Python
用Python编写一个高效的端口扫描器的方法
Dec 20 #Python
python re正则匹配网页中图片url地址的方法
Dec 20 #Python
python使用pdfminer解析pdf文件的方法示例
Dec 20 #Python
python爬取指定微信公众号文章
Dec 20 #Python
在Django中URL正则表达式匹配的方法
Dec 20 #Python
python采集微信公众号文章
Dec 20 #Python
You might like
PHP 5.0对象模型深度探索之对象复制
2008/03/27 PHP
简单的PHP留言本实例代码
2010/05/09 PHP
codeigniter中测试通过的分页类示例
2014/04/17 PHP
Codeigniter+PHPExcel实现导出数据到Excel文件
2014/06/12 PHP
yii通过小物件生成view的方法
2016/10/08 PHP
ASP.NET jQuery 实例16 通过控件CustomValidator验证RadioButtonList
2012/02/03 Javascript
解决3.01版的jquery.form.js中文乱码问题的解决方法
2012/03/08 Javascript
jquery分页插件AmSetPager(自写)
2013/04/15 Javascript
javascript自启动函数的问题探讨
2013/10/05 Javascript
jQuery中的$.ajax()方法应用
2014/05/06 Javascript
一行命令搞定node.js 版本升级
2014/07/20 Javascript
使用AngularJS实现可伸缩的页面切换的方法
2015/06/19 Javascript
巧用canvas
2017/01/21 Javascript
微信小程序movable view移动图片和双指缩放实例代码
2017/08/08 Javascript
使用vue-cli导入Element UI组件的方法
2018/05/16 Javascript
layDate日期控件使用方法详解
2018/11/15 Javascript
Vue.js如何使用Socket.IO的示例代码
2019/09/05 Javascript
在layui.use 中自定义 function 的正确方法
2019/09/16 Javascript
vue遍历对象中的数组取值示例
2019/11/07 Javascript
[49:02]KG vs Infamous 2019国际邀请赛淘汰赛 败者组BO1 8.20.mp4
2020/07/19 DOTA
Windows下Python的Django框架环境部署及应用编写入门
2016/03/10 Python
详解用python生成随机数的几种方法
2019/08/04 Python
突袭HTML5之Javascript API扩展5—其他扩展(应用缓存/服务端消息/桌面通知)
2013/01/31 HTML / CSS
HTML5 Canvas绘制圆点虚线实例
2015/01/01 HTML / CSS
Html5 canvas实现粒子时钟的示例代码
2018/09/06 HTML / CSS
美国全球旅游运营商:Pacific Holidays
2018/06/18 全球购物
西班牙香水和化妆品购物网站:Arenal Perfumerías
2019/03/01 全球购物
巴西Mr. Cat在线商店:购买包包和鞋子
2019/09/08 全球购物
SmartBuyGlasses荷兰:购买太阳镜和眼镜
2020/03/16 全球购物
汽车运用工程毕业生自荐信
2013/10/29 职场文书
运动会100米解说词
2014/01/23 职场文书
绿化先进工作者事迹材料
2014/01/30 职场文书
教师专业自荐书范文
2014/02/10 职场文书
优秀毕业生找工作自荐信
2014/06/23 职场文书
2015年父亲节寄语
2015/03/23 职场文书
Python编程中Python与GIL互斥锁关系作用分析
2021/09/15 Python