Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python基础教程之获取本机ip数据包示例
Feb 10 Python
Python ORM框架SQLAlchemy学习笔记之关系映射实例
Jun 10 Python
python解析xml文件操作实例
Oct 05 Python
python使用range函数计算一组数和的方法
May 07 Python
Python的Flask框架中集成CKeditor富文本编辑器的教程
Jun 13 Python
Python之多线程爬虫抓取网页图片的示例代码
Jan 10 Python
python中类的属性和方法介绍
Nov 27 Python
详解Python静态网页爬取获取高清壁纸
Apr 23 Python
python递归下载文件夹下所有文件
Aug 31 Python
python针对mysql数据库的连接、查询、更新、删除操作示例
Sep 11 Python
Flask模板引擎Jinja2使用实例
Apr 23 Python
Python urllib2运行过程原理解析
Jun 04 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
类的另类用法--数据的封装
2006/10/09 PHP
图象函数中的中文显示
2006/10/09 PHP
PHP容易忘记的知识点分享
2013/04/30 PHP
PHP中Socket连接及读写数据超时问题分析
2016/07/19 PHP
ThinkPHP5框架中使用JWT的方法示例
2020/06/03 PHP
解决使用attachEvent函数时,this指向被绑定的元素的问题的方法
2007/08/13 Javascript
来自国外的14个图片放大编辑的jQuery插件整理
2010/10/20 Javascript
php 中序列化和json使用介绍
2013/07/08 Javascript
HTML,CSS,JavaScript速查表推荐
2014/12/02 Javascript
nodeJS代码实现计算交社保是否合适
2015/03/09 NodeJs
JavaScript获取表格(table)当前行的值、删除行、增加行
2015/07/03 Javascript
简单实现限制uploadify上传个数
2015/11/16 Javascript
微信小程序 swiper组件轮播图详解及实例
2016/11/16 Javascript
Bootstrap基本样式学习笔记之表格(2)
2016/12/07 Javascript
vue.js实现只弹一次弹框
2018/01/29 Javascript
vue中如何使用ztree
2018/02/06 Javascript
微信小程序 Storage更新详解
2019/07/16 Javascript
修改layui的后台模板的左侧导航栏可以伸缩的方法
2019/09/10 Javascript
javaScript代码飘红报错看不懂?读完这篇文章再试试
2020/08/19 Javascript
基于原生JS封装的Modal对话框插件的示例代码
2020/09/09 Javascript
python中virtualenvwrapper安装与使用
2018/05/20 Python
django将图片上传数据库后在前端显式的方法
2018/05/25 Python
python itchat实现调用微信接口的第三方模块方法
2019/06/11 Python
Python缓存技术实现过程详解
2019/09/25 Python
python 3.7.4 安装 opencv的教程
2019/10/10 Python
opencv设置采集视频分辨率方式
2019/12/10 Python
PyQT5 实现快捷键复制表格数据的方法示例
2020/06/19 Python
cosme官方海外旗舰店:日本最大化妆品和美容产品的综合口碑网站
2017/01/18 全球购物
BNKR中国官网:带你感受澳洲领先潮流时尚
2018/08/21 全球购物
英国领先的大码时装品牌之一:Elvi
2018/08/26 全球购物
工作经历证明书范文
2014/11/02 职场文书
2014年生活老师工作总结
2014/12/23 职场文书
小学语文教师年度考核个人总结
2015/02/05 职场文书
个人求职自荐信范文
2015/03/06 职场文书
2015年中秋晚会主持词
2015/07/01 职场文书
尊师重教主题班会
2015/08/14 职场文书