Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的批量下载RFC文档
Mar 10 Python
Python实现给qq邮箱发送邮件的方法
May 28 Python
简单介绍使用Python解析并修改XML文档的方法
Oct 15 Python
python学习笔记之调用eval函数出现invalid syntax错误问题
Oct 18 Python
安装Python和pygame及相应的环境变量配置(图文教程)
Jun 04 Python
Python numpy 提取矩阵的某一行或某一列的实例
Apr 03 Python
python+flask实现API的方法
Nov 21 Python
Python+threading模块对单个接口进行并发测试
Jun 25 Python
Python日志无延迟实时写入的示例
Jul 11 Python
python 读取.nii格式图像实例
Jul 01 Python
基于python图书馆管理系统设计实例详解
Aug 05 Python
如何用 Python 处理不平衡数据集
Jan 04 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
php返回json数据函数实例
2014/10/09 PHP
PHP中数据类型转换的三种方式
2015/04/02 PHP
初识通用数据库操作类――前端easyui-datagrid,form(php)
2015/07/31 PHP
从刷票了解获得客户端IP的方法
2015/09/21 PHP
学习php设计模式 php实现工厂模式(factory)
2015/12/07 PHP
PHP实现图片不变型裁剪及图片按比例裁剪的方法
2016/01/14 PHP
AJAX的使用方法详解
2017/04/29 PHP
PHP实现与java 通信的插件使用教程
2019/08/11 PHP
javascript 限制输入和粘贴(IE,firefox测试通过)
2008/11/14 Javascript
禁止JQuery中的load方法装载IE缓存中文件的方法
2009/09/11 Javascript
JS中的THIS和WINDOW.EVENT.SRCELEMENT详解
2015/05/25 Javascript
浅析创建javascript对象的方法
2016/05/13 Javascript
深入解析JavaScript中的立即执行函数
2016/05/21 Javascript
Vue数据驱动模拟实现2
2017/01/11 Javascript
基于Node.js的WebSocket通信实现
2017/03/11 Javascript
js实现手机发送验证码功能
2017/03/13 Javascript
jQuery EasyUI之验证框validatebox实例详解
2017/04/10 jQuery
详解 vue better-scroll滚动插件排坑
2018/02/08 Javascript
VsCode与Node.js知识点详解
2019/09/05 Javascript
简单了解前端渐进式框架VUE
2020/07/20 Javascript
[00:44]2016完美“圣”典 风云人物:Mikasa宣传片
2016/12/07 DOTA
Python中的异常处理学习笔记
2015/01/28 Python
Collatz 序列、逗号代码、字符图网格实例
2017/06/22 Python
python paramiko利用sftp上传目录到远程的实例
2019/01/03 Python
python 处理telnet返回的More,以及get想要的那个参数方法
2019/02/14 Python
使用Python的SymPy库解决数学运算问题的方法
2019/03/27 Python
PyQt5 实现给窗口设置背景图片的方法
2019/06/13 Python
Python搭建Spark分布式集群环境
2019/07/05 Python
Jupyter Notebook折叠输出的内容实例
2020/04/22 Python
CSS3过渡transition效果实例介绍
2016/05/03 HTML / CSS
css3 实现滚动条美化效果的实例代码
2021/01/06 HTML / CSS
墨西哥皇宫度假村预订:Palace Resorts
2018/06/16 全球购物
STAUD官方网站:洛杉矶独有的闲适风格
2019/04/11 全球购物
项目申报专员岗位职责
2014/07/09 职场文书
2014坚持党风廉政建设思想汇报
2014/09/18 职场文书
2016年中学法制宣传日活动总结
2016/04/01 职场文书