编程 Python

Python网络爬虫四大选择器用法原理总结

Posted in Python onJune 01, 2020

前几天小编连续写了四篇关于Python选择器的文章，分别用正则表达式、BeautifulSoup、Xpath、CSS选择器分别抓取京东网的商品信息。今天小编来给大家总结一下这四个选择器，让大家更加深刻的理解和熟悉Python选择器。

一、正则表达式

正则表达式为我们提供了抓取数据的快捷方式。虽然该正则表达式更容易适应未来变化，但又存在难以构造、可读性差的问题。当在爬京东网的时候，正则表达式如下图所示：

利用正则表达式实现对目标信息的精准采集

此外，我们都知道，网页时常会产生变更，导致网页中会发生一些微小的布局变化时，此时也会使得之前写好的正则表达式无法满足需求，而且还不太好调试。当需要匹配的内容有很多的时候，使用正则表达式提取目标信息会导致程序运行的速度减慢，需要消耗更多内存。

二、BeautifulSoup

BeautifulSoup是一个非常流行的 Pyhon 模块。该模块可以解析网页，并提供定位内容的便捷接口。通过'pip install beautifulsoup4'就可以实现该模块的安装了。

Python网络爬虫四大选择器用法原理总结

利用美丽的汤去提取目标信息

使用 BeautifulSoup的第一步是将己下载的 HTML 内容解析为 soup文档。由于大多数网页都不具备良好的HTML 格式，因此BeautifulSoup需要对实际格式进行确定。BeautifulSoup能够正确解析缺失的引号并闭合标签，此外还会添加＜html ＞和＜body＞标签使其成为完整的HTML文档。通常使用find() 和find_all()方法来定位我们需要的元素。如果你想了解BeautifulSoup全部方法和参数，可以查阅BeautifulSoup的官方文档。虽然BeautifulSoup在代码的理解上比正则表达式要复杂一些，但是其更加容易构造和理解。

三、Lxml

Lxml模块使用 C语言编写，其解析速度比 BeautiflSoup更快，而且其安装过程也更为复杂，在此小编就不赘述啦。XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

Python网络爬虫四大选择器用法原理总结

Xpath

使用 lxml 模块的第一步和BeautifulSoup一样，也是将有可能不合法的HTML 解析为统一格式。虽然Lxml可以正确解析属性两侧缺失的引号，并闭合标签，不过该模块没有额外添加＜html ＞和＜body＞标签。

在线复制Xpath表达式可以很方便的复制Xpath表达式。但是通过该方法得到的Xpath表达式放在程序中一般不能用，而且长的没法看。所以Xpath表达式一般还是要自己亲自上手。

四、CSS

CSS选择器表示选择元素所使用的模式。BeautifulSoup整合了CSS选择器的语法和自身方便使用API。在网络爬虫的开发过程中，对于熟悉CSS选择器语法的人，使用CSS选择器是个非常方便的方法。

Python网络爬虫四大选择器用法原理总结

CSS选择器

下面是一些常用的选择器示例。

选择所有标签：＊
选择＜a＞标签： a
选择所有class＝”link” 的元素： .l in k
选择 class＝”link” 的＜a＞标签： a.link
选择 id= " home ” 的＜a＞标签： a Jhome
选择父元素为＜a＞标签的所有＜ span＞子标签： a > span
选择＜a＞标签内部的所有＜span＞标签： a span
选择title属性为” Home ” 的所有＜a＞标签： a [title=Home]

五、性能对比

lxml 和正则表达式模块都是C语言编写的，而BeautifulSoup则是纯Python 编写的。下表总结了每种抓取方法的优缺点。

Python网络爬虫四大选择器用法原理总结

相对困难需要注意的是。lxml在内部实现中，实际上是将CSS选择器转换为等价的Xpath选择器。

六、总结

如果你的爬虫瓶颈是下载网页，而不是抽取数据的话，那么使用较慢的方法（如BeautifulSoup）也不成问题。如果只需抓取少量数据，并且想要避免额外依赖的话，那么正则表达式可能更加适合。不过，通常情况下，l xml是抓取数据的最好选择，这是因为该方法既快速又健壮，而正则表达式和BeautifulSoup只在某些特定场景下有用。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python网络爬虫四大选择器用法原理总结

- Author -

dcpeng

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python迭代器实例简析

Sep 25 Python

python机器学习理论与实战（五）支持向量机

Jan 19 Python

python查看模块安装位置的方法

Oct 16 Python

Python之列表实现栈的工作功能

Jan 28 Python

python读出当前时间精度到秒的代码

Jul 05 Python

python文件读写代码实例

Oct 21 Python

python opencv 实现对图像边缘扩充

Jan 19 Python

Python发送手机动态验证码代码实例

Feb 28 Python

Python手动或自动协程操作方法解析

Jun 22 Python

Pytorch mask-rcnn 实现细节分享

Jun 24 Python

Windows 平台做 Python 开发的最佳组合(推荐)

Jul 27 Python

详解appium自动化测试工具(monitor、uiautomatorviewer)

Jan 27 Python

浅谈Pycharm的项目文件名是红色的原因及解决方式

Jun 01 #Python

pycharm设置默认的UTF-8编码模式的方法详解

Jun 01 #Python

解决pycharm导入本地py文件时,模块下方出现红色波浪线的问题

Jun 01 #Python

Python常见反爬虫机制解决方案

Jun 01 #Python

解决python运行启动报错问题

Jun 01 #Python

利用python控制Autocad:pyautocad方式

Jun 01 #Python

Python 跨.py文件调用自定义函数说明

Jun 01 #Python

You might like

Array of country list in PHP with Zend Framework

2011/10/17 PHP

PHP中有关长整数的一些操作教程

2019/09/11 PHP

关于php开启错误提示的总结

2019/09/24 PHP

jquery实现省市select下拉框的替换(示例代码)

2014/02/22 Javascript

jQuery的css() 方法使用指南

2015/05/03 Javascript

js实现Select列表各项上移和下移的方法

2015/08/14 Javascript

jQuery实现选中弹出窗口选择框内容后赋值给文本框的方法

2015/11/23 Javascript

js防阻塞加载的实现方法

2016/09/09 Javascript

JS 实现 ajax 异步浏览器兼容问题

2017/01/21 Javascript

jquery hover 不停闪动问题的解决方法(亦为stop()的使用)

2017/02/10 Javascript

ES6入门教程之let和const命令详解

2017/05/17 Javascript

vue 中filter的多种用法

2018/04/26 Javascript

使用layer.msg 时间设置不起作用的解决方法

2019/09/12 Javascript

node后端服务保活的实现

2019/11/10 Javascript

[02:40]DOTA2殁境神蚀者英雄基础教程

2013/11/26 DOTA

[48:21]Mski vs VGJ.S Supermajor小组赛C组 BO3 第一场 6.3

2018/06/04 DOTA

[01:29:31]VP VS VG Supermajor小组赛胜者组第二轮 BO3第一场 6.2

2018/06/03 DOTA

浅谈Django自定义模板标签template_tags的用处

2017/12/20 Python

django+xadmin+djcelery实现后台管理定时任务

2018/08/14 Python

django框架之cookie/session的使用示例(小结)

2018/10/15 Python

Python中文编码知识点

2019/02/18 Python

Python读写文件模式和文件对象方法实例详解

2019/09/17 Python

Python大数据之网络爬虫的post请求、get请求区别实例分析

2019/11/16 Python

Python实现Word表格转成Excel表格的示例代码

2020/04/16 Python

python根据用户需求输入想爬取的内容及页数爬取图片方法详解

2020/08/03 Python

水上运动奥特莱斯：Wasterports Outlet

2018/08/08 全球购物

亚洲最大的眼镜批发商和零售商之一：Glasseslit

2018/10/08 全球购物

获奖的大学生创业计划书

2014/01/05 职场文书

学习决心书

2014/03/11 职场文书

企业出纳岗位职责

2014/03/12 职场文书

2014党员四风对照检查材料思想汇报

2014/09/17 职场文书

教师自我剖析材料（群众路线）

2014/09/29 职场文书

乡镇镇长个人整改措施

2014/10/01 职场文书

开学第一周总结

2015/07/16 职场文书

新闻稿格式范文

2015/07/18 职场文书

Python实现智慧校园自动评教全新版

2021/06/18 Python