Python爬虫包BeautifulSoup简介与安装(一)


Posted in Python onJune 17, 2018

先发官方文档的地址:官方文档

学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。

Beautiful Soup的简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

书本中的源代码用的是Python3,但是据说 BS4 对 Python3 的支持不够好,所以我用的是 Python2.7。源码中也会相应地调整一些包的引入。

因为之前写过CNN等,需要在windows下配置环境,所以已经安装了anaconda。如果安装了anaconda的读者,可以直接使用pip安装,conda需要搜索一下,直接安装时不行的。

anaconda search -t conda beautifulsoup
conda install beautifulsoup4
pip install beautifulsoup4

如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法。在这里我安装的是 beautifulsoup4 (4.5.1)

BeautifulSoup 3.2.1

BeautifulSoup 4.5.1

下载完成之后解压

运行下面的命令即可完成安装

sudo python setup.py install

有时候的安装方式会需手动安装 lxml,如果用conda安装会自动把依赖包给安装上。

pip install lxml

创建 Beautiful Soup 对象

首先导入bs4库

from bs4 import BeautifulSoup

用urlopen读取一段HTML的内容

import sys
if sys.version_info[0] == 2:
  from urllib2 import urlopen # Python 2
else:
  from urllib.request import urlopen # Python3

html = urlopen(http://www.pythonscraping.com/exercises/exercise1.html)

用读取的内容创建beautifulsoup 对象

bsObj = BeautifulSoup(html.read())
print(bsObj.h1)

此外我们也可以用本地的HTML文件来创建对象,例如

soup = BeautifulSoup(open('index.html'))

输出测试

print bsObj.h1
print bsObj.prettify()

<h1>An Interesting Title</h1>

<html>
 <head>
 <title>
  A Useful Page
 </title>
 </head>
 <body>
 <h1>
  An Interesting Title
 </h1>
 <div>
  Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.
 </div>
 </body>
</html>

以上便是输出结果,格式化打印出了它的内容,并且可以通过成员对象的方式获得解析后的HTML层次。

以上全部为本篇文章的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现程序的单一实例用法分析
Jun 03 Python
Python判断Abundant Number的方法
Jun 15 Python
深入学习python的yield和generator
Mar 10 Python
详解如何使用Python编写vim插件
Nov 28 Python
Django基于ORM操作数据库的方法详解
Mar 27 Python
Python面向对象之类的内置attr属性示例
Dec 14 Python
Python生成MD5值的两种方法实例分析
Apr 26 Python
django-rest-framework解析请求参数过程详解
Jul 18 Python
python中random模块详解
Mar 01 Python
Python爬取英雄联盟MSI直播间弹幕并生成词云图
Jun 01 Python
详解Python生成器和基于生成器的协程
Jun 03 Python
Python内置包对JSON文件数据进行编码和解码
Apr 12 Python
python主线程捕获子线程的方法
Jun 17 #Python
Python实现获取邮箱内容并解析的方法示例
Jun 16 #Python
Python实现自定义函数的5种常见形式分析
Jun 16 #Python
Python基于jieba库进行简单分词及词云功能实现方法
Jun 16 #Python
Python实现简单的文本相似度分析操作详解
Jun 16 #Python
Django跨域请求问题的解决方法示例
Jun 16 #Python
Python for循环生成列表的实例
Jun 15 #Python
You might like
mysql 字段类型说明
2007/04/27 PHP
解析PHP跳出循环的方法以及continue、break、exit的区别介绍
2013/07/01 PHP
PHP中使用正则表达式提取中文实现笔记
2015/01/20 PHP
WordPress后台中实现图片上传功能的实例讲解
2016/01/11 PHP
Laravel中10个有用的用法小结
2019/05/06 PHP
jQuery 瀑布流 绝对定位布局(二)(延迟AJAX加载图片)
2012/05/23 Javascript
JS连连看源码完美注释版(推荐)
2013/12/09 Javascript
javascript动态向网页中添加表格实现代码
2014/02/19 Javascript
node.js中的fs.lchmod方法使用说明
2014/12/16 Javascript
javascript操作select元素实例分析
2015/03/27 Javascript
JS+CSS实现仿触屏手机拨号盘界面及功能模拟完整实例
2015/05/16 Javascript
javascript跨域的方法汇总
2015/10/23 Javascript
jquery实现点击弹出可放大居中及关闭的对话框(附demo源码下载)
2016/05/10 Javascript
批量下载对路网图片并生成html的实现方法
2016/06/07 Javascript
Nodejs下DNS缓存问题浅析
2016/11/16 NodeJs
JavaScript基于activexobject连接远程数据库SQL Server 2014的方法
2017/07/12 Javascript
AngularJS实现的锚点楼层跳转功能示例
2018/01/02 Javascript
jQuery实现滚动到底部时自动加载更多的方法示例
2018/02/18 jQuery
微信小程序 swiper 组件遇到的问题及解决方法
2019/05/26 Javascript
ES6中的类(Class)示例详解
2020/12/09 Javascript
[38:51]2014 DOTA2国际邀请赛中国区预选赛 Orenda VS LGD-CDEC
2014/05/22 DOTA
[01:45]绝对公平!DOTA2队长征召模式详解
2014/04/25 DOTA
pyhton列表转换为数组的实例
2018/04/04 Python
Python实现检测文件MD5值的方法示例
2018/04/11 Python
Python爬虫包BeautifulSoup学习实例(五)
2018/06/17 Python
对django layer弹窗组件的使用详解
2019/08/31 Python
CSS3中Animation动画属性用法详解
2016/07/04 HTML / CSS
Giglio俄罗斯奢侈品购物网:男士、女士、儿童高级时装
2018/07/27 全球购物
个人找工作求职简历的自我评价
2013/10/20 职场文书
大学运动会加油稿200字(5篇)
2014/09/27 职场文书
2014大学辅导员工作总结
2014/12/02 职场文书
考试作弊检讨书范文
2015/01/27 职场文书
库房管理员岗位职责
2015/02/12 职场文书
2015中学政教处工作总结
2015/07/22 职场文书
创作书写之导游词实用技巧分享(干货)
2019/12/20 职场文书
Python使用socket去实现TCP客户端和TCP服务端
2022/04/12 Python