Python网络爬虫四大选择器用法原理总结


Posted in Python onJune 01, 2020

前几天小编连续写了四篇关于Python选择器的文章,分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器,让大家更加深刻的理解和熟悉Python选择器。

一、正则表达式

正则表达式为我们提供了抓取数据的快捷方式。虽然该正则表达式更容易适应未来变化,但又存在难以构造、可读性差的问题。当在爬京东网的时候,正则表达式如下图所示:

Python网络爬虫四大选择器用法原理总结

利用正则表达式实现对目标信息的精准采集

此外 ,我们都知道,网页时常会产生变更,导致网页中会发生一些微小的布局变化时,此时也会使得之前写好的正则表达式无法满足需求,而且还不太好调试。当需要匹配的内容有很多的时候,使用正则表达式提取目标信息会导致程序运行的速度减慢,需要消耗更多内存。

二、BeautifulSoup

BeautifulSoup是一个非常流行的 Pyhon 模块。该模块可以解析网页,并提供定位内容的便捷接口。通过'pip install beautifulsoup4'就可以实现该模块的安装了。

Python网络爬虫四大选择器用法原理总结

利用美丽的汤去提取目标信息

使用 BeautifulSoup的第一步是将己下载的 HTML 内容解析为 soup文档。由 于大多 数网 页都不具备良好的HTML 格式,因此BeautifulSoup需要对实际格式进行确定。BeautifulSoup能够正确解析缺失的引号并闭合标签,此外还会添加<html >和<body>标签使其成为完整的HTML文档。通常使用find() 和find_all()方法来定位我们需要的元素。如果你想了解BeautifulSoup全部方法和参数,可以查阅BeautifulSoup的官方文档。虽然BeautifulSoup在代码的理解上比正则表达式要复杂一些,但是其更加容易构造和理解。

三、Lxml

Lxml模块使用 C语言编写,其解析速度比 BeautiflSoup更快,而且其安装过程也更为复杂,在此小编就不赘述啦。XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

Python网络爬虫四大选择器用法原理总结

Xpath

使用 lxml 模块的第一步和BeautifulSoup一样,也是将有可能不合法的HTML 解析为 统一格式。 虽然Lxml可以正确解析属性两侧缺失的引号,并闭合标签,不过该模块没有额外添加<html >和<body>标签 。

在线复制Xpath表达式可以很方便的复制Xpath表达式。但是通过该方法得到的Xpath表达式放在程序中一般不能用,而且长的没法看。所以Xpath表达式一般还是要自己亲自上手。

四、CSS

CSS选择器表示选择元素所使用 的模式。BeautifulSoup整合了CSS选择器的语法和自身方便使用API。在网络爬虫的开发过程中,对于熟悉CSS选择器语法的人,使用CSS选择器是个非常方便的方法。

Python网络爬虫四大选择器用法原理总结

CSS选择器

下面是一些常用的选择器示例。

  • 选择所有标签: *
  • 选择<a>标 签: a
  • 选择所有class=”link” 的元素: .l in k
  • 选择 class=”link” 的<a>标签: a.link
  • 选择 id= " home ” 的<a>标签: a Jhome
  • 选择父元素为<a>标签的所有< span>子标签: a > span
  • 选择<a>标签内部的所有<span>标签: a span
  • 选择title属性为” Home ” 的所有<a>标签: a [title=Home]

五、性能对比

lxml 和正则表达式模块都是C语言编写的,而BeautifulSoup则是纯Python 编写的。下表总结了每种抓取方法的优缺点。

Python网络爬虫四大选择器用法原理总结

相对困难需要注意的是。lxml在内部实现中,实际上是将CSS选择器转换为等价的Xpath选择器。

六、总结

如果你的爬虫瓶颈是下载网页,而不是抽取数据的话,那么使用较慢的方法(如BeautifulSoup) 也不成问题。如果只需抓取少量数据,并且想要避免额外依赖的话,那么正则表达式可能更加适合。不过,通常情况下,l xml是抓取数据的最好选择,这是因为该方法既快速又健壮,而正则表达式和BeautifulSoup只在某些特定场景下有用。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 中random模块的常用方法总结
Jul 08 Python
python3+PyQt5实现自定义分数滑块部件
Apr 24 Python
对python中数组的del,remove,pop区别详解
Nov 07 Python
python解析含有重复key的json方法
Jan 22 Python
浅谈python编译pyc工程--导包问题解决
Mar 20 Python
python查找重复图片并删除(图片去重)
Jul 16 Python
使用批处理脚本自动生成并上传NuGet包(操作方法)
Nov 19 Python
pytorch dataloader 取batch_size时候出现bug的解决方式
Feb 20 Python
mac 上配置Pycharm连接远程服务器并实现使用远程服务器Python解释器的方法
Mar 19 Python
jupyter notebook中美观显示矩阵实例
Apr 17 Python
pycharm 快速解决python代码冲突的问题
Jan 15 Python
python实现批量移动文件
Apr 05 Python
浅谈Pycharm的项目文件名是红色的原因及解决方式
Jun 01 #Python
pycharm设置默认的UTF-8编码模式的方法详解
Jun 01 #Python
解决pycharm导入本地py文件时,模块下方出现红色波浪线的问题
Jun 01 #Python
Python常见反爬虫机制解决方案
Jun 01 #Python
解决python运行启动报错问题
Jun 01 #Python
利用python控制Autocad:pyautocad方式
Jun 01 #Python
Python 跨.py文件调用自定义函数说明
Jun 01 #Python
You might like
php制作的简单验证码识别代码
2016/01/26 PHP
php实现数据库的增删改查
2017/02/26 PHP
php如何实现数据库的备份和恢复
2020/11/30 PHP
jQuery AjaxQueue改进步骤
2011/10/06 Javascript
关于锚点跳转及jQuery下相关操作与插件
2012/10/01 Javascript
使用jQuery同时控制四张图片的伸缩实现代码
2013/04/19 Javascript
浅谈JavaScript中Date(日期对象),Math对象
2015/02/05 Javascript
被遗忘的javascript的slice() 方法
2015/04/20 Javascript
jQuery焦点图插件SaySlide
2015/12/21 Javascript
快速实现JS图片懒加载(可视区域加载)示例代码
2017/01/04 Javascript
AngularJS使用ocLazyLoad实现js延迟加载
2017/07/05 Javascript
Angular2使用SVG自定义图表(条形图、折线图)组件示例
2019/05/10 Javascript
在JavaScript中使用严格模式(Strict Mode)
2019/06/13 Javascript
jQuery实现异步上传一个或多个文件
2020/08/17 jQuery
vue 判断两个时间插件结束时间必选大于开始时间的代码
2020/11/04 Javascript
python的numpy模块安装不成功简单解决方法总结
2017/12/23 Python
对numpy数据写入文件的方法讲解
2018/07/09 Python
Python实现连接MySql数据库及增删改查操作详解
2019/04/16 Python
selenium2.0中常用的python函数汇总
2019/08/05 Python
使用Python实现文字转语音并生成wav文件的例子
2019/08/08 Python
python分布式编程实现过程解析
2019/11/08 Python
为什么黑客都用python(123个黑客必备的Python工具)
2020/01/31 Python
Window系统下Python如何安装OpenCV库
2020/03/05 Python
Django实现图片上传功能步骤解析
2020/04/22 Python
python 实现汉诺塔游戏
2020/11/28 Python
精灵市场:Pixie Market
2019/06/18 全球购物
Java中实现多态的机制是什么?
2014/12/07 面试题
创业计划书如何编写
2014/02/06 职场文书
大学生职业生涯规划书参考模板
2014/03/05 职场文书
勤奋学习演讲稿
2014/05/10 职场文书
大专生求职信
2014/06/29 职场文书
2014年学生会工作总结范文
2014/11/07 职场文书
2014年社区宣传工作总结
2014/12/02 职场文书
《秦兵马俑》教学反思
2016/02/24 职场文书
css样式important规则的正确使用方式
2022/06/10 HTML / CSS
使用pd.merge表连接出现多余行的问题解决
2022/06/16 Python