Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的一些用法分享
Oct 07 Python
python根据京东商品url获取产品价格
Aug 09 Python
Python连接DB2数据库
Aug 27 Python
python: 自动安装缺失库文件的方法
Oct 22 Python
Python判断以什么结尾以什么开头的实例
Oct 27 Python
Python 保存矩阵为Excel的实现方法
Jan 28 Python
Python API 自动化实战详解(纯代码)
Jun 11 Python
python关于变量名的基础知识点
Mar 03 Python
python学习将数据写入文件并保存方法
Jun 07 Python
浅谈Python 命令行参数argparse写入图片路径操作
Jul 12 Python
浅谈matplotlib默认字体设置探索
Feb 03 Python
Python Selenium操作Cookie的实例方法
Feb 28 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
php批量添加数据与批量更新数据的实现方法
2014/12/16 PHP
Laravel 5框架学习之向视图传送数据(进阶篇)
2015/04/08 PHP
PHP+mysql防止SQL注入的方法小结
2019/04/27 PHP
php实现简易计算器
2020/08/28 PHP
一个js封装的不错的选项卡效果代码
2008/02/15 Javascript
js实现GridView单选效果自动设置交替行、选中行、鼠标移动行背景色
2010/05/27 Javascript
复制Input内容的js代码_支持所有浏览器,修正了Firefox3.5以上的问题
2010/06/21 Javascript
jquery多浏览器捕捉回车事件代码
2010/06/22 Javascript
ASP.NET jQuery 实例10 动态修改hyperlink的URL值
2012/02/03 Javascript
js(JavaScript)实现TAB标签切换效果的简单实例
2014/02/26 Javascript
jquery实现select选择框内容左右移动代码分享
2015/11/21 Javascript
基于JS实现新闻列表无缝向上滚动实例代码
2016/01/22 Javascript
JavaScript继承学习笔记【新手必看】
2016/05/10 Javascript
JS简单实现获取元素的封装操作示例
2017/04/07 Javascript
jquery+css实现Tab栏切换的代码实例
2019/05/14 jQuery
ES6 class的应用实例分析
2019/06/27 Javascript
[46:04]Liquid vs VP Supermajor决赛 BO 第四场 6.10
2018/07/05 DOTA
[40:03]Liquid vs Optic 2018国际邀请赛淘汰赛BO3 第一场 8.21
2018/08/22 DOTA
python 正则式使用心得
2009/05/07 Python
Python向excel中写入数据的方法
2019/05/05 Python
Python下opencv图像阈值处理的使用笔记
2019/08/04 Python
Pytorch 实现权重初始化
2019/12/31 Python
使用tensorflow显示pb模型的所有网络结点方式
2020/01/23 Python
Python机器学习工具scikit-learn的使用笔记
2021/01/28 Python
CSS3解决移动页面上点击链接触发色块的问题
2016/06/03 HTML / CSS
基于HTML5 的人脸识别活体认证的实现方法
2016/06/22 HTML / CSS
通信专业个人自我鉴定
2013/10/21 职场文书
婚礼证婚人证婚词
2014/01/13 职场文书
党员实事承诺书
2014/03/26 职场文书
仓库管理计划书
2014/05/04 职场文书
诚信的演讲稿范文
2014/05/12 职场文书
计算机网络专业自荐书
2014/06/09 职场文书
2015年业务工作总结范文
2015/04/10 职场文书
2015年计生工作总结范文
2015/04/24 职场文书
Java中的继承、多态以及封装
2022/04/11 Java/Android
Win11开始菜单添加休眠选项
2022/04/19 数码科技