Python利用Beautiful Soup模块创建对象详解


Posted in Python onMarch 27, 2017

安装

通过 pip 安装 Beautiful Soup 模块:pip install beautifulsoup4

还可以使用 PyCharm IDE 来写代码,在 PyCharm 中的 Preferences 中找到 Project ,在里面搜索 Beautiful Soup 模块,进行安装即可。

创建 BeautifulSoup 对象

Beautiful Soup 模块广泛使用从网页中得到数据。我们能够使用 Beautiful Soup 模块从 HTML/XML 文档中提取任何数据,例如,网页中的所有链接或者标签内的内容。

为了实现这一点,Beautiful Soup 提供了不同的对象和方法。任何的 HTML/XML 文档能够转化成不同的 Beautiful Soup 对象,这些对象有着不同的属性和方法,我们能够从中提取到需要的数据。

Beautiful Soup 总共有如下三种对象:

  1. BeautifulSoup
  2. Tag
  3. NavigableString

创建 BeautifulSoup 对象

创建一个 BeautifulSoup 对象是任何 Beautiful Soup 工程的起点。

BeautifulSoup 可以通过传一个字符串或者类文件对象(file-like object),例如机器上的文件或者网页。

通过字符串创建 BeautifulSoup 对象

在 BeautifulSoup 的构造器中通过传递一个字符串来创建对象。

helloworld = '<p>Hello World</p>'
soup_string = BeautifulSoup(helloworld)
print soup_string 
<html><body><p>Hello World</p></body></html>

通过类文件对象创建 BeautifulSoup 对象

在 BeautifulSoup 的构造器中通过传递一个类文件对象(file-like object)来创建对象。这在解析在线网页时非常有用。

url = "http://www.glumes.com"
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)
print soup

除了传递类文件对象之外,我们还可以传递本地文件对象到 BeautifulSoup 的构造器来生成对象。

with open('foo.html','r') as foo_file :
 soup_foo = BeautifulSoup(foo_file)
print soup_foo

为 XML 解析创建 BeautifulSoup 对象

Beautiful Soup 模块同样能够用来解析 XML 。

当创建一个 BeautifulSoup 对象时, Beautiful Soup 模块将会选择合适的 TreeBuilder 类来创建 HTML/XML 树。默认情况下,选择 HTML TreeBuilder 对象,它将使用默认的 HTML 解析器,产生一个 HTML 结构树。在上面的代码中,由字符串生成 BeautifulSoup 对象,就是将它解析成了 HTML 树结构。

如果我们想要 Beautiful Soup 模块将输入的内容解析为 XML 类型,那么就需要在 Beautiful Soup 构造器中精确指定使用的 features 参数。通过特定的 features 参数,Beautiful Soup 将会选择最适合的 TreeBuilder 类来满足我们想要的特征。

理解 features 参数

每一个 TreeBuilder 根据它使用的解析器将会有不同的特征。因此,输入的内容根据传递到构造器的 features 参数也会有不同的结果。
在 Beautiful Soup 模块中,TreeBuilder 当前使用的解析器如下:

  1. lxml
  2. html5lib
  3. html.parser

BeautifulSoup 构造器的 features 参数能够接受一个字符串列表或一个字符串值。

当前,每一个 TreeBuilder 支持的 features 参数和解析器如下表所示:

Features TreeBuilder Parser
[‘lxml','html','fast','permissive'] LXMLTreeBuilder lxml
[‘html','html5lib','permissive','strict','html5′] HTML5TreeBuilder html5lib
[‘html','strict','html.parser'] HTMLParserTreeBuilder html.parser
[‘xml','lxml','permissive','fast'] LXMLTreeBuilderForXML lxml

根据指定的 feature 参数,Beautiful Soup 将会选择最合适的 TreeBuilder 类。如果在指定对应的解析器时,出现如下的报错信息,可能就是需要安装对应的解析器了。

bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: html5lib. 
Do you need to install a parser library?

就 HTML 文档而言,选择 TreeBuilder 的顺序是基于解析器建立的优先级,就如上表格所示的优先级。首先是 lxml ,其次是 html5lib ,最后才是 html.parser 。例如,我们选择 html 字符串作为 feature 参数,那么如果 lxml 解析器可用,则 Beautiful Soup 模块将会选择 LXMLTreeBuilder 。如果 lxml 不可用,则会选择 根据 html5lib 解析器选择 HTML5TreeBuilder 。如果在不可用,则会选择根据 html.parser 选择 HTMLParserTreeBuilder 了。

至于 XML ,由于 lxml 是唯一的解析器,所以 LXMLTreeBuilderForXML 总是会被选择的。

所以,为 XML 创建一个 Beautiful Soup 对象的代码如下:

helloworld = '<p>Hello World</p>'
soup_string = BeautifulSoup(helloworld,features="xml")
print soup_string

输入的结果也是 XML 形式的文件 :

在创建 Beautiful Soup 对象时,更好的实践是指定解析器。这是因为,不同的解析器解析的结果内容大不相同,尤其是在我们的 HTML 文档内容非法时,结果更为明显。

当我们创建一个 BeautifulSoup 对象时,Tag 和 NavigableString 对象也就创建了。

创建 Tag 对象

我们可以从 BeautifulSoup 对象中得到 Tag 对象,也就是 HTML/XML 中的标签。

如下 HTML 代码所示:

#!/usr/bin/python
# -*- coding:utf-8 -*-
from bs4 import BeautifulSoup
html_atag = """
 <html>
 <body>
 <p>Test html a tag example</p>
 <a href="http://www.glumes.com'>Home</a>
 <a href="http;//www.glumes.com/index.html'>Blog</a>
 </body>
 <html>
 """
soup = BeautifulSoup(html_atag,'html.parser')
atag = soup.a
print type(atag)
print atag

从结果中可以看到 atag 的类型是 <class 'bs4.element.Tag'>  。而 soup.a 的结果就是 HTML 文档中的第一个 <a> 标签。
HTML/XML 标签对象具有名称和属性。名称就是标签的名字,例如 标签 <a> 的名称就是 a 。属性则是标签的 class 、id 、style 等。Tag 对象允许我们得到 HTML 标签的名称和属性 。

Tag 对象的名称

通过 .name 方式得到 Tag 对象的名称 。

tagname = atag.name
print tagname

同时也能够改变 Tag 对象的名称:

atag.name = 'p'

这样就将上面 HTML 文档中的第一个 <a> 标签名称换成了 <p> 标签了。

Tag 对象的属性

在 HTML 页面中,标签可能有不同的属性,例如 class 、id 、style 等。Tag 对象能够以字典的形式访问标签的属性。

atag = soup_atag.a
print atag

也能通过 .attrs 的方式访问到,这样会将所有的属性内容都打印出来 :

print atag.attrs
{'href': u'http://www.glumes.com'}

创建 NavigableString 对象

NavigableString 对象持有 HTML 或 XML 标签的文本内容。这是一个 Unicode 编码的字符串。

我们可以通过 .string 的方式得到标签的本文内容 。

navi = atag.string
print type(navi)
print navi.string

小结

代码小结如下:

BeautifulSoup

  • soup = BeautifulSoup(String)
  • soup = BeautifulSoup(String,features=”xml”)

Tag

  • tag = soup.tag
  • tag.name
  • tag[‘attribute']

NavigableString

  • soup.tag.string

总结

以上就是关于Python使用Beautiful Soup模块创建对象的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
Python下线程之间的共享和释放示例
May 04 Python
对django中render()与render_to_response()的区别详解
Oct 16 Python
python实时获取外部程序输出结果的方法
Jan 12 Python
OpenCV HSV颜色识别及HSV基本颜色分量范围
Mar 22 Python
python绘制随机网络图形示例
Nov 21 Python
python中seaborn包常用图形使用详解
Nov 25 Python
python十进制转二进制的详解
Feb 07 Python
python环境下安装opencv库的方法
Mar 05 Python
python 6行代码制作月历生成器
Sep 18 Python
python如何获得list或numpy数组中最大元素对应的索引
Nov 16 Python
Python使用Opencv实现边缘检测以及轮廓检测的实现
Dec 31 Python
Python WSGI 规范简介
Apr 11 Python
Python利用Beautiful Soup模块修改内容方法示例
Mar 27 #Python
python递归查询菜单并转换成json实例
Mar 27 #Python
Python中的命令行参数解析工具之docopt详解
Mar 27 #Python
Python使用PDFMiner解析PDF代码实例
Mar 27 #Python
详解python并发获取snmp信息及性能测试
Mar 27 #Python
使用Python写CUDA程序的方法
Mar 27 #Python
pyenv命令管理多个Python版本
Mar 26 #Python
You might like
php生成图形验证码几种方法小结
2013/08/15 PHP
Firefox和IE浏览器兼容JS脚本写法小结
2008/07/07 Javascript
Javascript this指针
2009/07/30 Javascript
如何确保JavaScript的执行顺序 之jQuery.html并非万能钥匙
2011/03/03 Javascript
JavaScript 大数据相加的问题
2011/08/03 Javascript
Extjs中ComboBox加载并赋初值的实现方法
2012/03/22 Javascript
js实现点小图看大图效果的思路及示例代码
2013/10/28 Javascript
JavaScript之AOP编程实例
2015/07/17 Javascript
jQuery鼠标悬浮链接弹出跟随图片实例代码
2016/01/08 Javascript
基于canvas粒子系统的构建详解
2017/08/31 Javascript
Vue-router 切换组件页面时进入进出动画方法
2018/09/01 Javascript
VueCli3构建TS项目的方法步骤
2018/11/07 Javascript
详解vue中router-link标签所必备了解的属性
2019/04/15 Javascript
Vue数据双向绑定底层实现原理
2019/11/22 Javascript
Jquery cookie插件实现原理代码解析
2020/08/04 jQuery
google广告之另类js调用实现代码
2020/08/22 Javascript
[01:10:16]DOTA2上海特级锦标赛B组资格赛#2 Fnatic VS Spirit第一局
2016/02/27 DOTA
[52:44]VGJ.T vs infamous Supermajor小组赛D组败者组第一轮 BO3 第一场 6.3
2018/06/04 DOTA
Python编写屏幕截图程序方法
2015/02/18 Python
python通过装饰器检查函数参数数据类型的方法
2015/03/13 Python
python获取当前时间对应unix时间戳的方法
2015/05/15 Python
python机器学习之神经网络(一)
2017/12/20 Python
利用Python+Java调用Shell脚本时的死锁陷阱详解
2018/01/24 Python
python实现可视化动态CPU性能监控
2018/06/21 Python
python tkinter组件使用详解
2019/09/16 Python
使用CSS3滤镜的filter:blur属性制作毛玻璃模糊效果的方法
2016/07/08 HTML / CSS
机电一体化自荐信
2013/12/10 职场文书
时尚休闲吧创业计划书
2014/01/25 职场文书
高二物理教学反思
2014/02/08 职场文书
助人为乐好少年事迹材料
2014/08/18 职场文书
民族团结演讲稿范文
2014/08/27 职场文书
助学金感谢信
2015/01/20 职场文书
道德与公民自我评价
2015/03/09 职场文书
领导欢送会主持词
2015/07/06 职场文书
工作服管理制度范本
2015/08/06 职场文书
教师节祝酒词
2015/08/11 职场文书