Python BS4库的安装与使用详解


Posted in Python onAugust 08, 2018

Beautiful Soup 库一般被称为bs4库,支持Python3,是我们写爬虫非常好的第三方库。因用起来十分的简便流畅。所以也被人叫做“美味汤”。目前bs4库的最新版本是4.60。下文会介绍该库的最基本的使用,具体详细的细节还是要看:[官方文档](Beautiful Soup Documentation)

bs4库的安装

Python的强大之处就在于他作为一个开源的语言,有着许多的开发者为之开发第三方库,这样我们开发者在想要实现某一个功能的时候,只要专心实现特定的功能,其他细节与基础的部分都可以交给库来做。bs4库 就是我们写爬虫强有力的帮手。

安装的方式非常简单:我们用pip工具在命令行里进行安装

$ pip install beautifulsoup4

接着我们看一下是否成功安装了bs4库

$ pip list

这样我们就成功安装了 bs4 库

Python BS4库的安装与使用详解

bs4库的简单使用

这里我们先简单的讲解一下bs4库的使用,

暂时不去考虑如何从web上抓取网页,

假设我们需要爬取的html是如下这么一段:

下面的一段HTML代码将作为例子被多次用到.这是 爱丽丝梦游仙境的 的一段内容(以后内容中简称为 爱丽丝 的文档):

<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>
  
<p class="story">Once upon a time there were three little sisters; and their names were
http://example.com/elsie" class="sister" id="link1">Elsie,
http://example.com/lacie" class="sister" id="link2">Lacie and
http://example.com/tillie" class="sister" id="link3">Tillie;
and they lived at the bottom of a well.</p>
  
<p class="story">...</p>
</html>

下面我们开始用bs4库解析这一段html网页代码。

#导入bs4模块
from bs4 import BeautifulSoup
#做一个美味汤
soup = BeautifulSoup(html,'html.parser')
#输出结果
print(soup.prettify())
  
'''
OUT:
  
# <html>
# <head>
#  <title>
#  The Dormouse's story
#  </title>
# </head>
# <body>
#  <p class="title">
#  <b>
#   The Dormouse's story
#  </b>
#  </p>
#  <p class="story">
#  Once upon a time there were three little sisters; and their names were
#  <a class="sister" href="http://example.com/elsie" rel="external nofollow" id="link1">
#   Elsie
#  </a>
#  ,
#  <a class="sister" href="http://example.com/lacie" rel="external nofollow" id="link2">
#   Lacie
#  </a>
#  and
#  <a class="sister" href="http://example.com/tillie" rel="external nofollow" id="link2">
#   Tillie
#  </a>
#  ; and they lived at the bottom of a well.
#  </p>
#  <p class="story">
#  ...
#  </p>
# </body>
# </html>
'''

可以看到bs4库将网页文件变成了一个soup的类型,

事实上,bs4库 是解析、遍历、维护、“标签树“的功能库。

通俗一点说就是: bs4库把html源代码重新进行了格式化,

从而方便我们对其中的节点、标签、属性等进行操作。

下面是几个简单的浏览结构化数据的方式 :

请仔细观察最前面的html文件

# 找到文档的title
soup.title
# <title>The Dormouse's story</title>
  
#title的name值
soup.title.name
# u'title'
  
#title中的字符串String
soup.title.string
# u'The Dormouse's story'
  
#title的父亲节点的name属性
soup.title.parent.name
# u'head'
  
#文档的第一个找到的段落
soup.p
# <p class="title"><b>The Dormouse's story</b></p>
  
#找到的p的class属性值
soup.p['class']
# u'title'
  
#找到a标签
soup.a
# http://example.com/elsie" id="link1">Elsie
  
#找到所有的a标签
soup.find_all('a')
# [http://example.com/elsie" id="link1">Elsie,
# http://example.com/lacie" id="link2">Lacie,
# http://example.com/tillie" id="link3">Tillie]
  
#找到id值等于3的a标签
soup.find(id="link3")
# http://example.com/tillie" id="link3">Tillie

通过上面的例子 我们知道bs4库是这样理解一个html源文件的:

首先 把html源文件转换为soup类型

接着 从中通过特定的方式抓取内容

 更高级点的用法?

从文档中找到所有<a>标签的链接:

#发现了没有,find_all方法返回的是一个可以迭代的列表
for link in soup.find_all('a'):
  print(link.get('href'))
  # http://example.com/elsie
  # http://example.com/lacie
  # http://example.com/tillie

从文档中获取所有文字内容:

#我们可以通过get_text 方法 快速得到源文件中的所有text内容。
print(soup.get_text())
# The Dormouse's story
#
# The Dormouse's story
#
# Once upon a time there were three little sisters; and their names were
# Elsie,
# Lacie and
# Tillie;
# and they lived at the bottom of a well.
#
# ...

bs4库的入门使用我们就先进行到这。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中文编码问题小结
Sep 28 Python
自己编程中遇到的Python错误和解决方法汇总整理
Jun 03 Python
python 读取excel文件生成sql文件实例详解
May 12 Python
Python实现pdf文档转txt的方法示例
Jan 19 Python
Python使用re模块实现信息筛选的方法
Apr 29 Python
对python实时得到鼠标位置的示例讲解
Oct 14 Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 Python
详解Python爬取并下载《电影天堂》3千多部电影
Apr 26 Python
scrapy数据存储在mysql数据库的两种方式(同步和异步)
Feb 18 Python
Python3爬虫里关于识别微博宫格验证码的知识点详解
Jul 30 Python
Django Model层F,Q对象和聚合函数原理解析
Nov 12 Python
总结Python常用的魔法方法
May 25 Python
python特性语法之遍历、公共方法、引用
Aug 08 #Python
用Python shell简化开发
Aug 08 #Python
在Python中使用gRPC的方法示例
Aug 08 #Python
Python实现购物评论文本情感分析操作【基于中文文本挖掘库snownlp】
Aug 07 #Python
python实现彩票系统
Jun 28 #Python
django框架自定义用户表操作示例
Aug 07 #Python
Python实现基于POS算法的区块链
Aug 07 #Python
You might like
针对初学PHP者的疑难问答(2)
2006/10/09 PHP
php获取参数的几种方法总结
2014/02/18 PHP
php利用curl抓取新浪微博内容示例
2014/04/27 PHP
推荐一款PHP+jQuery制作的列表分页的功能模块
2014/10/14 PHP
javascript动态加载二
2012/08/22 Javascript
JS合并数组的几种方法及优劣比较
2014/09/19 Javascript
深入理解javascript变量声明
2014/11/20 Javascript
JavaScript实现自动变换表格边框颜色
2015/05/08 Javascript
jquery实现适用于门户站的导航下拉菜单效果代码
2015/08/24 Javascript
BootStrap入门教程(三)之响应式原理
2016/09/19 Javascript
jquery.validate表单验证插件使用详解
2017/06/21 jQuery
Node.js如何使用Diffie-Hellman密钥交换算法详解
2017/09/05 Javascript
微信小程序自定义组件之可清除的input组件
2018/07/17 Javascript
微信小程序实现人脸识别登陆的示例代码
2019/04/02 Javascript
详解Vue中组件的缓存
2019/04/20 Javascript
微信小程序云开发 搭建一个管理小程序
2019/05/17 Javascript
JS实现页面侧边栏效果探究
2021/01/08 Javascript
[02:55]2018DOTA2国际邀请赛勇士令状不朽珍藏Ⅲ饰品一览
2018/08/01 DOTA
[40:03]Liquid vs Optic 2018国际邀请赛淘汰赛BO3 第一场 8.21
2018/08/22 DOTA
Python socket C/S结构的聊天室应用实现
2014/11/30 Python
人工智能最火编程语言 Python大战Java!
2017/11/13 Python
Python实现将Excel转换成为image的方法
2018/10/23 Python
python解析yaml文件过程详解
2019/08/30 Python
python使用sklearn实现决策树的方法示例
2019/09/12 Python
Python Django框架模板渲染功能示例
2019/11/08 Python
Selenium 滚动页面至元素可见的方法
2020/03/18 Python
欧舒丹比利时官网:L’OCCITANE比利时
2017/04/25 全球购物
开展党的群众路线教育实践活动方案
2014/02/05 职场文书
民事诉讼授权委托书范文
2014/08/02 职场文书
运动会400米加油稿(8篇)
2014/09/22 职场文书
公务员政审材料
2014/12/23 职场文书
个人工作表现自我评价
2015/03/06 职场文书
感恩节寄语2015
2015/03/24 职场文书
2015年园林绿化工作总结
2015/05/23 职场文书
Nginx解决前端访问资源跨域问题的方法详解
2021/03/31 Servers
Pyhton爬虫知识之正则表达式详解
2022/04/01 Python