浅谈Python采集网页时正则表达式匹配换行符的问题


Posted in Python onDecember 20, 2018

如下所示:

p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #这样采集html时出错,采集不到数据,正则中 . 是不能匹配换行符,改成如下:
p1 = r'(?<=<div class="ds_cr">)([\s\S]*?)(?=<div id="pageurl">)' # 这是我们写的正则表达式规则,你现在可以不理解啥意思

[\s\S]

\s

匹配任何空白字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v]。

\S

匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

以上这篇浅谈Python采集网页时正则表达式匹配换行符的问题就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python学习笔记整理3之输入输出、python eval函数
Dec 14 Python
Python 文件处理注意事项总结
Apr 10 Python
python实现机械分词之逆向最大匹配算法代码示例
Dec 13 Python
Python/ArcPy遍历指定目录中的MDB文件方法
Oct 27 Python
对Pyhon实现静态变量全局变量的方法详解
Jan 11 Python
django 中的聚合函数,分组函数,F 查询,Q查询
Jul 25 Python
Django认证系统实现的web页面实现代码
Aug 12 Python
Python tkinter和exe打包的方法
Feb 05 Python
django之导入并执行自定义的函数模块图解
Apr 01 Python
PyTorch: Softmax多分类实战操作
Jul 07 Python
pytorch加载语音类自定义数据集的方法教程
Nov 10 Python
Python Matplotlib绘制条形图的全过程
Oct 24 Python
Python实现正则表达式匹配任意的邮箱方法
Dec 20 #Python
用Python编写一个高效的端口扫描器的方法
Dec 20 #Python
python re正则匹配网页中图片url地址的方法
Dec 20 #Python
python使用pdfminer解析pdf文件的方法示例
Dec 20 #Python
python爬取指定微信公众号文章
Dec 20 #Python
在Django中URL正则表达式匹配的方法
Dec 20 #Python
python采集微信公众号文章
Dec 20 #Python
You might like
php+ajax实现图片文件上传功能实例
2014/06/17 PHP
php异步多线程swoole用法实例
2014/11/14 PHP
php上传图片生成缩略图(GD库)
2016/01/06 PHP
php单链表实现代码分享
2016/07/04 PHP
PHP随机获取未被微信屏蔽的域名(微信域名检测)
2017/03/19 PHP
thinkPHP5框架auth权限控制类与用法示例
2018/06/12 PHP
QQ登录简单实现代码
2021/03/09 Javascript
JS获取图片实际宽高及根据图片大小进行自适应
2013/08/11 Javascript
JS正则表达式获取分组内容的方法详解
2013/11/15 Javascript
Javascript浮点数乘积运算出现多位小数的解决方法
2014/02/17 Javascript
node.js中的http.response.end方法使用说明
2014/12/14 Javascript
jQuery中:first-child选择器用法实例
2014/12/31 Javascript
jQuery中nextAll()方法用法实例
2015/01/07 Javascript
js基于setTimeout与setInterval实现多线程
2016/06/17 Javascript
Angular.JS学习之依赖注入$injector详析
2016/10/20 Javascript
基于JavaScript实现瀑布流效果
2017/03/29 Javascript
详解ajax的data参数错误导致页面崩溃
2018/04/30 Javascript
JavaScript代码调试方法实例小结
2019/01/05 Javascript
layui的布局和表格的渲染以及动态生成表格的方法
2019/09/18 Javascript
JS中==、===你分清楚了吗
2020/03/04 Javascript
js如何验证密码强度
2020/03/18 Javascript
[原创]windows下Anaconda的安装与配置正解(Anaconda入门教程)
2018/04/05 Python
django创建简单的页面响应实例教程
2019/09/06 Python
CSS3 border-radius圆角的实现方法及用法详解
2020/09/14 HTML / CSS
澳大利亚游乐场设备品牌:Lifespan Kids
2019/05/24 全球购物
英语专业大学生求职简历的自我评价
2013/10/18 职场文书
打架检讨书400字
2014/01/17 职场文书
集体婚礼策划方案
2014/02/22 职场文书
投标承诺书范本
2014/03/27 职场文书
优秀三好学生事迹材料
2014/08/31 职场文书
私人贷款担保书该怎么写呢?
2019/07/02 职场文书
创业计划书之花店
2019/09/20 职场文书
MySQL表类型 存储引擎 的选择
2021/11/11 MySQL
python中字符串String及其常见操作指南(方法、函数)
2022/04/06 Python
Python可变与不可变数据和深拷贝与浅拷贝
2022/04/06 Python
Window server 2012 R2 AD域的组策略相关设置
2022/04/28 Servers