Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中cPickle用法例子分享
Jan 03 Python
python入门之语句(if语句、while语句、for语句)
Jan 19 Python
python3学习笔记之多进程分布式小例子
Feb 13 Python
Django后台获取前端post上传的文件方法
May 28 Python
Python Pandas数据结构简单介绍
Jul 03 Python
Python二维码生成识别实例详解
Jul 16 Python
Python2和3字符编码的区别知识点整理
Aug 08 Python
python实现的Iou与Giou代码
Jan 18 Python
python 控制台单行刷新,多行刷新实例
Feb 19 Python
Django Path转换器自定义及正则代码实例
May 29 Python
Python发送邮件实现基础解析
Aug 14 Python
Pytorch之扩充tensor的操作
Mar 04 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
PHP 编程请选择正确的文本编辑软件
2006/12/21 PHP
隐藏X-Space个人空间下方版权方法隐藏X-Space个人空间标题隐藏X-Space个人空间管理版权方法
2007/02/22 PHP
JavaScript创建命名空间的5种写法
2014/06/24 PHP
ThinkPHP实现一键清除缓存方法
2014/06/26 PHP
PHP常用header头定义代码示例汇总
2020/08/29 PHP
javascript与asp.net(c#)互相调用方法
2009/12/13 Javascript
ExtJS 工具栏 分页事件参数
2010/03/05 Javascript
基于Jquery实现表格动态分页实现代码
2011/06/21 Javascript
js动态加载以及确定加载完成的代码
2011/07/31 Javascript
JS实现文字掉落效果的方法
2015/05/06 Javascript
js判断登陆用户名及密码是否为空的简单实例
2016/05/16 Javascript
Bootstrap前端开发案例二
2016/06/17 Javascript
JavaScript类型系统之布尔Boolean类型详解
2016/06/26 Javascript
AngularJS表格详解及示例代码
2016/08/17 Javascript
javascript 数组去重复(在线去重工具)
2016/12/17 Javascript
vue.js指令v-model使用方法
2017/03/20 Javascript
JavaScript表单即时验证 验证不成功不能提交
2017/08/31 Javascript
解决Angular4项目部署到服务器上刷新404的问题
2018/08/31 Javascript
React如何解决fetch跨域请求时session失效问题
2018/11/02 Javascript
vue 表单之通过v-model绑定单选按钮radio
2019/05/13 Javascript
一篇文章让你搞懂JavaScript 原型和原型链
2020/11/23 Javascript
Python备份Mysql脚本
2008/08/11 Python
使用python实现拉钩网上的FizzBuzzWhizz问题示例
2014/05/05 Python
基于Linux系统中python matplotlib画图的中文显示问题的解决方法
2017/06/15 Python
python基于物品协同过滤算法实现代码
2018/05/31 Python
C/C++程序员常见面试题一
2012/12/08 面试题
科研先进个人典型材料
2014/01/31 职场文书
英文请假条
2014/04/11 职场文书
2014年毕业演讲稿范文
2014/05/13 职场文书
林肯就职演讲稿
2014/05/19 职场文书
普通党员自我剖析材料
2014/10/07 职场文书
单位未婚证明范本
2014/11/25 职场文书
Vue项目中如何封装axios(统一管理http请求)
2021/05/02 Vue.js
python3中apply函数和lambda函数的使用详解
2022/02/28 Python
特别篇动画《总之就是非常可爱 ~制服~》PV公开,2022年夏季播出
2022/04/04 日漫
Windows Server 版本 20H2 于 8 月 9 日停止支持,Win10 版本 21H1 将于 12 月结束支
2022/07/23 数码科技