Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中3种内建数据结构:列表、元组和字典
Nov 30 Python
Python基于Tkinter的HelloWorld入门实例
Jun 17 Python
Python中函数参数设置及使用的学习笔记
May 03 Python
深入理解python对json的操作总结
Jan 05 Python
Python3用tkinter和PIL实现看图工具
Jun 21 Python
对python 操作solr索引数据的实例详解
Dec 07 Python
Python判断一个list中是否包含另一个list全部元素的方法分析
Dec 24 Python
Python求一批字符串的最长公共前缀算法示例
Mar 02 Python
python实现简单日期工具类
Apr 24 Python
对python中UDP,socket的使用详解
Aug 22 Python
Numpy中对向量、矩阵的使用详解
Oct 29 Python
python - asyncio异步编程
Apr 06 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
YII模块实现绑定二级域名的方法
2014/07/09 PHP
PHP生成zip压缩包的常用方法示例
2019/08/22 PHP
javascript YUI 读码日记之 YAHOO.util.Dom - Part.4
2008/03/22 Javascript
扩展easyui.datagrid,添加数据loading遮罩效果代码
2010/11/02 Javascript
ASP.NET jQuery 实例3 (在TextBox里面阻止复制、剪切和粘贴事件)
2012/01/13 Javascript
圣诞节Merry Christmas给博客添加浪漫的下雪效果基于jquery实现
2012/12/27 Javascript
javascript 树形导航菜单实例代码
2013/08/13 Javascript
教你用javascript实现随机标签云效果_附代码
2016/03/16 Javascript
解决jQuery ajax请求在IE6中莫名中断的问题
2016/06/20 Javascript
jQuery.ajax 跨域请求webapi设置headers的解决方案
2016/08/08 Javascript
vue实现简单表格组件实例详解
2017/04/16 Javascript
jquery实现图片轮播器
2017/05/23 jQuery
jquery.uploadView 实现图片预览上传功能
2017/08/10 jQuery
JavaScript实现删除数组重复元素的5种常用高效算法总结
2018/01/18 Javascript
详解Angular6.0使用路由步骤(共7步)
2018/06/29 Javascript
微信小程序 子级页面返回父级并把子级参数带回父级实现方法
2019/08/22 Javascript
Element-Ui组件 NavMenu 导航菜单的具体使用
2019/10/24 Javascript
[01:06]DOTA2小知识课堂 Ep.01 TP出门不要忘记帮队友灌瓶哦
2019/12/05 DOTA
详解python3百度指数抓取实例
2016/12/12 Python
Python学习小技巧之利用字典的默认行为
2017/05/20 Python
python递归法实现简易连连看小游戏
2020/03/25 Python
python中property属性的介绍及其应用详解
2019/08/29 Python
Python 网络编程之UDP发送接收数据功能示例【基于socket套接字】
2019/10/11 Python
使用JS+CSS3技术:让你的名字动起来
2013/04/27 HTML / CSS
CSS3制作圆形滚动进度条动画的示例
2020/11/05 HTML / CSS
英国最大的LED专业零售商:Led Hut
2018/03/16 全球购物
POS解决方案:MUNBYN(热敏打印机、条形码扫描仪)
2020/06/09 全球购物
行政前台岗位职责
2013/12/04 职场文书
助学金感谢信
2015/01/20 职场文书
责任书范本大全
2015/05/11 职场文书
网络妈妈观后感
2015/06/08 职场文书
重阳节座谈会主持词
2015/07/03 职场文书
《和时间赛跑》读后感3篇
2019/12/16 职场文书
解决Pytorch修改预训练模型时遇到key不匹配的情况
2021/06/05 Python
一文了解MySQL二级索引的查询过程
2022/02/24 MySQL
Redis如何使用乐观锁(CAS)保证数据一致性
2022/03/25 Redis