编程 Python

Python爬虫的两套解析方法和四种爬虫实现过程

Posted in Python onJuly 20, 2018

对于大多数朋友而言，爬虫绝对是学习 python 的最好的起手和入门方式。因为爬虫思维模式固定，编程模式也相对简单，一般在细节处理上积累一些经验都可以成功入门。本文想针对某一网页对 python 基础爬虫的两大解析库（ BeautifulSoup 和 lxml ）和几种信息提取实现方法进行分析，以开 python 爬虫之初见。

基础爬虫的固定模式

笔者这里所谈的基础爬虫，指的是不需要处理像异步加载、验证码、代理等高阶爬虫技术的爬虫方法。一般而言，基础爬虫的两大请求库 urllib 和 requests 中 requests 通常为大多数人所钟爱，当然 urllib 也功能齐全。两大解析库 BeautifulSoup 因其强大的 HTML 文档解析功能而备受青睐，另一款解析库 lxml 在搭配 xpath 表达式的基础上也效率提高。就基础爬虫来说，两大请求库和两大解析库的组合方式可以依个人偏好来选择。

笔者喜欢用的爬虫组合工具是：

requests + BeautifulSoup
requests + lxml

同一网页爬虫的四种实现方式

笔者以腾讯新闻首页的新闻信息抓取为例。

首页外观如下：

Python爬虫的两套解析方法和四种爬虫实现过程

比如说我们想抓取每个新闻的标题和链接，并将其组合为一个字典的结构打印出来。首先查看 HTML 源码确定新闻标题信息组织形式。

Python爬虫的两套解析方法和四种爬虫实现过程

可以目标信息存在于 em 标签下 a 标签内的文本和 href 属性中。可直接利用 requests 库构造请求，并用 BeautifulSoup 或者 lxml 进行解析。

方式一： requests + BeautifulSoup + select css选择器

# select method
 import requests
 from bs4 import BeautifulSoup
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'} 
 url = 'http://news.qq.com/' 
 Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml')
 em = Soup.select('em[class="f14 l24"] a')
 for i in em:
   title = i.get_text()
   link = i['href']
   print({'标题': title, 
 '链接': link
   })

很常规的处理方式，抓取效果如下：

Python爬虫的两套解析方法和四种爬虫实现过程

方式二： requests + BeautifulSoup + find_all 进行信息提取

# find_all method
 import requests
 from bs4 import BeautifulSoup
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
 url = 'http://news.qq.com/'
 Soup = BeautifulSoup(requests.get(url=url, headers=headers).text.encode("utf-8"), 'lxml') 
 em = Soup.find_all('em', attrs={'class': 'f14 l24'})for i in em:
   title = i.a.get_text()
   link = i.a['href']
   print({'标题': title,
      '链接': link
   })

同样是 requests + BeautifulSoup 的爬虫组合，但在信息提取上采用了 find_all 的方式。效果如下：

Python爬虫的两套解析方法和四种爬虫实现过程

方式三： requests + lxml/etree + xpath 表达式

# lxml/etree method
 import requests
 from lxml import etree 
 headers = {  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
 url = 'http://news.qq.com/'
 html = requests.get(url = url, headers = headers)
 con = etree.HTML(html.text)
 title = con.xpath('//em[@class="f14 l24"]/a/text()')
 link = con.xpath('//em[@class="f14 l24"]/a/@href')
 for i in zip(title, link):
   print({'标题': i[0],
 '链接': i[1]
   })

使用 lxml 库下的 etree 模块进行解析，然后使用 xpath 表达式进行信息提取，效率要略高于 BeautifulSoup + select 方法。这里对两个列表的组合采用了 zip 方法。python学习交流群：125240963效果如下：

Python爬虫的两套解析方法和四种爬虫实现过程

方式四： requests + lxml/html/fromstring + xpath 表达式

# lxml/html/fromstring method
 import requests
 import lxml.html as HTML 
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.119 Safari/537.36'}
 url = 'http://news.qq.com/'
 con = HTML.fromstring(requests.get(url = url, headers = headers).text)
 title = con.xpath('//em[@class="f14 l24"]/a/text()')
 link = con.xpath('//em[@class="f14 l24"]/a/@href')
 for i in zip(title, link):
   print({'标题': i[0],'链接': i[1]
   })

跟方法三类似，只是在解析上使用了 lxml 库下的 html.fromstring 模块。抓取效果如下：

Python爬虫的两套解析方法和四种爬虫实现过程

很多人觉得爬虫有点难以掌握，因为知识点太多，需要懂前端、需要python熟练、还需要懂数据库，更不用说正则表达式、XPath表达式这些。其实对于一个简单网页的数据抓取，不妨多尝试几种抓取方案，举一反三，也更能对python爬虫有较深的理解。长此以往，对于各类网页结构都有所涉猎，自然经验丰富，水到渠成。

总结

以上所述是小编给大家介绍的Python爬虫的两套解析方法和四种爬虫实现过程，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

Python爬虫的两套解析方法和四种爬虫实现过程

- Author -

Python火火

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

Nov 05 Python

Python使用functools模块中的partial函数生成偏函数

Jul 02 Python

python 换位密码算法的实例详解

Jul 19 Python

Python Cookie 读取和保存方法

Dec 28 Python

python 用 xlwings 库生成图表的操作方法

Dec 22 Python

Pytorch中的自动求梯度机制和Variable类实例

Feb 29 Python

pycharm部署、配置anaconda环境的教程

Mar 24 Python

Pygame的程序开始示例代码

May 07 Python

Python生成器next方法和send方法区别详解

May 30 Python

Django基于Models定制Admin后台实现过程解析

Nov 11 Python

Python logging自定义字段输出及打印颜色

Nov 30 Python

Python学习之异常中的finally使用详解

Mar 16 Python

使用python脚本实现查询火车票工具

Jul 19 #Python

Python 判断文件或目录是否存在的实例代码

Jul 19 #Python

Flask框架Jinjia模板常用语法总结

Jul 19 #Python

python一行sql太长折成多行并且有多个参数的方法

Jul 19 #Python

python代码过长的换行方法

Jul 19 #Python

Flask和Django框架中自定义模型类的表名、父类相关问题分析

Jul 19 #Python

python多行字符串拼接使用小括号的方法

Mar 19 #Python

You might like

PHP中实现crontab代码分享

2015/03/26 PHP

ThinkPHP中create()方法自动验证表单信息

2017/04/28 PHP

在php7中MongoDB实现模糊查询的方法详解

2017/05/03 PHP

解析 thinkphp 框架中的部分方法

2017/05/07 PHP

使用PHP访问RabbitMQ消息队列的方法示例

2018/06/06 PHP

深入解析PHP底层机制及相关原理

2020/12/11 PHP

Chrome中模态对话框showModalDialog返回值问题的解决方法

2010/05/25 Javascript

使用Java实现简单的server/client回显功能的方法介绍

2013/05/03 Javascript

通过JS来动态的修改url，实现对url的增删查改

2014/09/01 Javascript

jquery动态添加删除(tr/td)

2015/02/09 Javascript

jquery中EasyUI实现同步树

2015/03/01 Javascript

jquery实现两个图片渐变切换效果的方法

2015/06/25 Javascript

Windows 系统下设置Nodejs NPM全局路径

2016/04/26 NodeJs

JavaScrpt的面向对象全面解析

2017/05/09 Javascript

EasyUI的TreeGrid的过滤功能的解决思路

2017/08/08 Javascript

iframe与主框架跨域相互访问实现方法

2017/09/14 Javascript

JavaScript学习总结(一) ECMAScript、BOM、DOM（核心、浏览器对象模型与文档对象模型）

2018/01/07 Javascript

JavaScript实现联动菜单特效

2020/01/07 Javascript

[03:14]辉夜杯主赛事 12月25日每日之星

2015/12/26 DOTA

Python Django框架防御CSRF攻击的方法分析

2019/10/18 Python

py-charm延长试用期限实例

2019/12/22 Python

python dataframe NaN处理方式

2019/12/26 Python

python编程进阶之类和对象用法实例分析

2020/02/21 Python

python实现文法左递归的消除方法

2020/05/22 Python

10行Python代码实现Web自动化管控的示例代码

2020/08/14 Python

Python爬虫Scrapy框架CrawlSpider原理及使用案例

2020/11/20 Python

ghd官网：英国ghd直发器品牌

2018/05/04 全球购物

GafasWorld西班牙：购买太阳镜、眼镜和隐形眼镜

2019/09/08 全球购物

会话Bean的种类

2013/11/07 面试题

日化店促销方案

2014/03/26 职场文书

致共产党员倡议书

2014/04/16 职场文书

税务干部群众路线教育实践活动自我剖析材料

2014/09/21 职场文书

初中中等生评语

2014/12/29 职场文书

建筑工程材料员岗位职责

2015/04/11 职场文书

旗帜观后感

2015/06/08 职场文书

Spring Cloud Netflix 套件中的负载均衡组件 Ribbon

2022/04/13 Java/Android