Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python处理中文编码和判断编码示例
Feb 26 Python
分享15个最受欢迎的Python开源框架
Jul 13 Python
玩转python爬虫之爬取糗事百科段子
Feb 17 Python
centos6.7安装python2.7.11的具体方法
Jan 16 Python
一个简单的python爬虫程序 爬取豆瓣热度Top100以内的电影信息
Apr 17 Python
对pycharm代码整体左移和右移缩进快捷键的介绍
Jul 16 Python
python将秒数转化为时间格式的实例
Sep 16 Python
详解利用django中间件django.middleware.csrf.CsrfViewMiddleware防止csrf攻击
Oct 09 Python
Python常用爬虫代码总结方便查询
Feb 25 Python
Python实现去除图片中指定颜色的像素功能示例
Apr 13 Python
Python如何使用input函数获取输入
Aug 06 Python
详解Python自动化之文件自动化处理
Jun 21 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
php 调用远程url的六种方法小结
2009/11/02 PHP
PHP实现的简单操作SQLite数据库类与用法示例
2017/06/19 PHP
PHP二维关联数组的遍历方式(实例讲解)
2017/10/18 PHP
php处理抢购类功能的高并发请求
2018/02/08 PHP
任意位置显示html菜单
2007/02/01 Javascript
优化网页之快速的呈现我们的网页
2007/06/29 Javascript
Iframe 自适应高度并实时监控高度变化的js代码
2009/10/30 Javascript
jquery $(document).ready() 与window.onload的区别
2009/12/28 Javascript
javascript 基础篇4 window对象,DOM
2012/03/14 Javascript
javascript unicode与GBK2312(中文)编码转换方法
2013/11/14 Javascript
js实现炫酷的左右轮播图
2017/01/18 Javascript
js禁止表单重复提交
2017/08/29 Javascript
微信小程序实现收藏与取消收藏切换图片功能
2018/08/03 Javascript
webpack4.x下babel的安装、配置及使用详解
2019/03/07 Javascript
Vue实例的对象参数options的几个常用选项详解
2019/11/08 Javascript
详解如何在Javascript和Sass之间共享变量
2019/11/13 Javascript
vue样式穿透 ::v-deep的具体使用
2020/06/04 Javascript
小程序自动化测试的示例代码
2020/08/11 Javascript
Javascript表单序列化原理及实现代码详解
2020/10/30 Javascript
初学Python实用技巧两则
2014/08/29 Python
详解python 发送邮件实例代码
2016/12/22 Python
Python设计模式之工厂模式简单示例
2018/01/09 Python
Python3.5实现的罗马数字转换成整数功能示例
2019/02/25 Python
Python中Numpy mat的使用详解
2019/05/24 Python
python读取并定位excel数据坐标系详解
2019/06/26 Python
用Python实现BP神经网络(附代码)
2019/07/10 Python
Django生成PDF文档显示网页上以及PDF中文显示乱码的解决方法
2019/12/17 Python
Python打印特殊符号及对应编码解析
2020/05/07 Python
Python 跨.py文件调用自定义函数说明
2020/06/01 Python
基于PyTorch的permute和reshape/view的区别介绍
2020/06/18 Python
使用Html5多媒体实现微信语音功能
2019/07/26 HTML / CSS
Banggood官网:面向全球客户的综合商城
2017/04/19 全球购物
VICHY薇姿英国官网:全球专业敏感肌护肤领先品牌
2017/07/04 全球购物
库房主管岗位职责
2013/12/31 职场文书
司法助理专业自荐书
2014/06/13 职场文书
幼儿教师年度个人总结
2015/02/05 职场文书