Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用Python实现换行符转换的脚本的教程
Apr 16 Python
Python Matplotlib库入门指南
May 18 Python
python getopt详解及简单实例
Dec 30 Python
python的pdb调试命令的命令整理及实例
Jul 12 Python
Python数据结构与算法之列表(链表,linked list)简单实现
Oct 30 Python
解决Pycharm无法import自己安装的第三方module问题
May 18 Python
python opencv实现运动检测
Jul 10 Python
解决Django layui {{}}冲突的问题
Aug 29 Python
Pytorch使用MNIST数据集实现CGAN和生成指定的数字方式
Jan 10 Python
matplotlib 曲线图 和 折线图 plt.plot()实例
Apr 17 Python
使用OpenCV校准鱼眼镜头的方法
Nov 26 Python
python中复数的共轭复数知识点总结
Dec 06 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
php获取访问者IP地址汇总
2015/04/24 PHP
php中的单引号、双引号和转义字符详解
2017/02/16 PHP
微信公众平台开发教程⑤ 微信扫码支付模式介绍
2019/04/10 PHP
JavaScript使用prototype定义对象类型(转)[
2006/12/22 Javascript
LBS blog sql注射漏洞[All version]-官方已有补丁
2007/08/26 Javascript
ASP SQL防注入的方法
2008/12/25 Javascript
JQuery困惑—包装集 DOM节点
2009/10/16 Javascript
jQuery validate 中文API 附validate.js中文api手册
2010/07/31 Javascript
javascript实现全角与半角字符的转换
2015/01/07 Javascript
javascript实现给定半径求出圆的面积
2015/06/26 Javascript
jQuery实现的超简单点赞效果实例分析
2015/12/31 Javascript
js实现背景图自适应窗口大小
2017/01/10 Javascript
js+html制作简单日历的方法
2017/06/27 Javascript
微信小程序 input输入及动态设置按钮的实现
2017/10/27 Javascript
利用CDN加速react webpack打包后的文件详解
2018/02/22 Javascript
vue两个组件间值的传递或修改方式
2018/07/04 Javascript
js实现网页随机验证码
2020/10/19 Javascript
python获取指定网页上所有超链接的方法
2015/04/04 Python
python中利用zfill方法自动给数字前面补0
2018/04/10 Python
pycharm安装和首次使用教程
2018/08/27 Python
Python解决线性代数问题之矩阵的初等变换方法
2018/12/12 Python
python列表切片和嵌套列表取值操作详解
2020/02/27 Python
Python利用PyPDF2库获取PDF文件总页码实例
2020/04/03 Python
Django media static外部访问Django中的图片设置教程
2020/04/07 Python
基于Pyinstaller打包Python程序并压缩文件大小
2020/05/28 Python
Python scrapy爬取小说代码案例详解
2020/07/09 Python
zooplus波兰:在线宠物店
2019/07/21 全球购物
应聘收银员个人的求职信
2013/11/30 职场文书
新入职员工的自我介绍演讲稿
2014/01/02 职场文书
委托证明的格式
2014/01/10 职场文书
销售人员获奖感言
2014/02/05 职场文书
先进人物事迹材料
2014/12/29 职场文书
团员个人年度总结
2015/02/26 职场文书
员工拾金不昧表扬稿
2015/05/05 职场文书
幽默口才训练经典句子(48句)
2019/08/19 职场文书
css 边框添加四个角的实现代码
2021/10/16 HTML / CSS