python3实现网络爬虫之BeautifulSoup使用详解


Posted in Python onDecember 19, 2018

这一次我们来了解一下美味的汤--BeautifulSoup,这将是我们以后经常使用的一个库,并且非常的好用。

BeautifuleSoup库的名字取自刘易斯·卡罗尔在《爱丽丝梦游仙境》里的同名诗歌。在故事中,这首歌是素甲鱼唱的。就像它在仙境中的说法一样,BeautifulSoup尝试化平淡为神奇。它通过定位HTML标签来格式化和组织复杂的网络信息,用简单易用的Python对象为我们展现XML结构信息。

由于BeautifulSoup库不是Python标准库,因此我们需要单独安装这个库,才能使用它。对于这个库的安装,我们这里秉着简单的原则,就直接利用pycharm这个IDLE进行库的自动下载和导入。

首先我们进入pycharm的主界面,单击file-〉settings-〉Project:untitled-〉Project Interpreter,如下图:

python3实现网络爬虫之BeautifulSoup使用详解

python3实现网络爬虫之BeautifulSoup使用详解

在上图中我们会看到一个绿色的加号,这时我们单击这个加号,会跳出如下的界面(pycharm在这个地方有时候很慢,会一直在这个界面刷新):

python3实现网络爬虫之BeautifulSoup使用详解

这时我们在搜索框中输入“bs4”,然后选择列表中的bs4,然后进行安装,如下图:

python3实现网络爬虫之BeautifulSoup使用详解

这样我们就完成了BeautifulSoup这个库的安装,下面我们就可以来使用它了。

关于这个库的官方文档解释的是很详细的,一定要看一看:点击打开链接

下面我就简单说一下这个库的一些方面。

首先呢,我们还是从一个例子开始我们的学习:

#coding:utf - 8
from urllib.request import urlopen
from bs4 import BeautifulSoup
 
html = urlopen("http://tieba.baidu.com/")
bsObj=BeautifulSoup(html,"lxml")  #将html对象转化为BeautifulSoup对象
print(bsObj.title)  #输出这个网页中的标题 
执

执行上面的程序,我们会得到的结果为:<title>百度贴吧——全球最大的中文社区</title>
首先我们来分析下bsObj=BeautifulSoup(html,"lxml")这句话对我们的html做了什么,在这句代码中,我们将html对象传入到BeautifulSoup中将它转化成BeautifulSoup对象,关于第二个参数lxml,可以到官方文档中看,解释得很详细,这里大家只要知道带上它就可以了,不需要管它。这样,我们就成功将html对象转化为了BeautifulSoup对象。
下面我们来了解下BeautifulSoup对象的结构,当我们将html转化后得到的结构为:
html-><html><head>....</head><body>.....</body></html>
---head-><head><title>百度贴吧--全球最大的中文社区<title></head>

          ---title-><title>百度贴吧--全球最大的中文社区</title>

     ----body->.........

关于这个页面的结构我中间省略了一些无关紧要的元素,只是为了展示下这种层次化的结构。

从上面我们可以看出,BeautifulSoup将html对象进行了层次化处理了,对它的原网页的标签进行了逐层的处理和细化,以便于我们之后使用。也就是我们只要知道,任何HTML(或XML)文件的任意节点信息都可以被提取出来,只要目标信息的旁边或者附近有标记就行了,这个标记就是我们网页中使用到的各种div、li之类的标签元素,也可以是class、id之类的属性,通过这些我们都可以对需要的信息进行提取。

对于刚刚的bsObj.title这个提取标题的操作,由于一个网页中只有一个title,所以我们可以直接获取到它,因为它是唯一的嘛,大家可以这样理解,在一个学校中,你的学号是唯一的,我可以通过直接查找学号进而唯一的搜索你,而不会产生歧义。

对于bsObj.title我们有多重替代方案:

  • bsObj.html.head.title
  • bsObj.html.title
  • bsObj.head.title

关于上面的代码大家是对网页中元素的细化搜索,可以这样理解啊,假定你已经知道一个人是计科院的了,那你搜索他的时候常规思路便是直接在计科院找他,而bsObj.head中的head就相当于计科院,它是网页中的头部,title就放在这里面,所以我们使用bsObj.head.title也可以实现这个效果,其它的代码可以类似分析。

BeautifulSoup是一个对象,所以我们可以通过运算符“.”对它的属性进行提取。

如bsObj.title获取html的标题对象,bsObj.title.name获取标题的名字。。。

这里就先简单介绍这些,后面 我们将继续深入说明BeautifulSoup的好的使用方法。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python Web框架Flask中使用七牛云存储实例
Feb 08 Python
用Python中的字典来处理索引统计的方法
May 05 Python
Python 3中的yield from语法详解
Jan 18 Python
Python中常用信号signal类型实例
Jan 25 Python
Python中协程用法代码详解
Feb 10 Python
python3学习笔记之多进程分布式小例子
Feb 13 Python
Python装饰器使用你可能不知道的几种姿势
Oct 25 Python
django中media媒体路径设置的步骤
Nov 15 Python
找Python安装目录,设置环境路径以及在命令行运行python脚本实例
Mar 09 Python
Python如何在windows环境安装pip及rarfile
Jun 15 Python
变长双向rnn的正确使用姿势教学
May 31 Python
Python 实现Mac 屏幕截图详解
Oct 05 Python
python爬虫超时的处理的实例
Dec 19 #Python
pycharm中使用anaconda部署python环境的方法步骤
Dec 19 #Python
Django框架模板注入操作示例【变量传递到模板】
Dec 19 #Python
python json.loads兼容单引号数据的方法
Dec 19 #Python
Python查找文件中包含中文的行方法
Dec 19 #Python
对python requests发送json格式数据的实例详解
Dec 19 #Python
解决Python下json.loads()中文字符出错的问题
Dec 19 #Python
You might like
php中邮箱地址正则表达式实现与详解
2012/04/24 PHP
php版微信开发之接收消息,自动判断及回复相应消息的方法
2016/09/23 PHP
redirect_uri参数错误的解决方法(必看)
2017/02/16 PHP
php文件操作之文件写入字符串、数组的方法分析
2019/04/15 PHP
jQuery源码分析-04 选择器-Sizzle-工作原理分析
2011/11/14 Javascript
jQuery+CSS3实现树叶飘落特效
2015/02/01 Javascript
基于RequireJS和JQuery的模块化编程——常见问题全面解析
2016/04/14 Javascript
移动适配的几种方案(三种方案)
2016/11/25 Javascript
vuejs开发组件分享之H5图片上传、压缩及拍照旋转的问题处理
2017/03/06 Javascript
利用express启动一个server服务的方法
2017/09/17 Javascript
JS实现生成由字母与数字组合的随机字符串功能详解
2018/05/25 Javascript
三分钟学会用ES7中的Async/Await进行异步编程
2018/06/14 Javascript
vue-better-scroll 的使用实例代码详解
2018/12/03 Javascript
深入解析koa之中间件流程控制
2019/06/17 Javascript
基于JS实现父组件的请求服务过程解析
2019/10/14 Javascript
微信小程序录音实现功能并上传(使用node解析接收)
2020/02/26 Javascript
js与jquery获取input输入框中的值实例讲解
2020/02/27 jQuery
jQuery编写QQ简易聊天框
2020/08/27 jQuery
Python操作列表的常用方法分享
2014/02/13 Python
详解Python中的元组与逻辑运算符
2015/10/13 Python
详解python中executemany和序列的使用方法
2017/08/12 Python
python rsync服务器之间文件夹同步脚本
2019/08/29 Python
Python 动态变量名定义与调用方法
2020/02/09 Python
基于Django OneToOneField和ForeignKey的区别详解
2020/03/30 Python
python基于socket函数实现端口扫描
2020/05/28 Python
使用HTML5进行SVG矢量图形绘制的入门教程
2016/02/19 HTML / CSS
雅诗兰黛(Estee Lauder)英国官方网站:世界顶级化妆品牌
2016/12/29 全球购物
施华洛世奇澳大利亚官网:SWAROVSKI澳大利亚
2017/01/06 全球购物
美国在线鞋类零售商:LifeStride
2019/06/09 全球购物
农田水利实习自我鉴定
2013/09/19 职场文书
大学生应聘自荐信
2013/10/11 职场文书
知识改变命运演讲稿
2014/05/21 职场文书
如何拟写通知正文?
2019/04/02 职场文书
python使用pymysql模块操作MySQL
2021/06/16 Python
OpenCV绘制圆端矩形的示例代码
2021/08/30 Python
关于mysql中时间日期类型和字符串类型的选择
2021/11/27 MySQL