python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python 字符串格式化代码
Mar 17 Python
使用Python抓取模板之家的CSS模板
Mar 16 Python
浅析python打包工具distutils、setuptools
Apr 20 Python
Python实现的求解最小公倍数算法示例
May 03 Python
python 读取.csv文件数据到数组(矩阵)的实例讲解
Jun 14 Python
win10下python3.5.2和tensorflow安装环境搭建教程
Sep 19 Python
Python中一些深不见底的“坑”
Jun 12 Python
Python实现手机号自动判断男女性别(实例解析)
Dec 22 Python
解决python DataFrame 打印结果不换行问题
Apr 09 Python
基于Python和C++实现删除链表的节点
Jul 06 Python
如何使用Django Admin管理后台导入CSV
Nov 06 Python
Python中正则表达式对单个字符,多个字符和匹配边界等使用
Jan 27 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
提问的智慧(2)
2006/10/09 PHP
晋城吧对DiscuzX进行的前端优化要点
2010/09/05 PHP
php获得用户ip地址的比较不错的方法
2014/02/08 PHP
微信自定义菜单的创建/查询/取消php示例代码
2016/08/05 PHP
Laravel框架路由设置与使用示例
2018/06/12 PHP
PHP封装XML和JSON格式数据接口操作示例
2019/03/06 PHP
Laravel 实现Eloquent模型分组查询并返回每个分组的数量 groupBy()
2019/10/23 PHP
JQuery this 和 $(this) 的区别
2009/08/23 Javascript
html+javascript实现可拖动可提交的弹出层对话框效果
2013/08/05 Javascript
最简单的tab切换实例代码
2016/05/13 Javascript
微信小程序 富文本转文本实例详解
2016/10/24 Javascript
js 将input框中的输入自动转化成半角大写(税号输入框)
2017/02/16 Javascript
JavaScript-定时器0~9抽奖系统详解(代码)
2017/08/16 Javascript
VeeValidate在vue项目里表单校验应用案例
2018/05/09 Javascript
Node.js之删除文件夹(含递归删除)代码实例
2019/09/09 Javascript
Vue中引入svg图标的两种方式
2021/01/14 Vue.js
Windows下使Python2.x版本的解释器与3.x共存的方法
2015/10/25 Python
Python使用add_subplot与subplot画子图操作示例
2018/06/01 Python
在Pycharm中执行scrapy命令的方法
2019/01/16 Python
Python OpenCV利用笔记本摄像头实现人脸检测
2020/08/20 Python
Python的Tkinter点击按钮触发事件的例子
2019/07/19 Python
python实现kNN算法识别手写体数字的示例代码
2019/08/16 Python
python编写微信公众号首图思路详解
2019/12/13 Python
Python文件名匹配与文件复制的实现
2020/12/11 Python
10 套华丽的CSS3 按钮小结
2012/10/03 HTML / CSS
CSS3中的@keyframes关键帧动画的选择器绑定
2016/06/13 HTML / CSS
html5使用canvas实现图片下载功能的示例代码
2017/08/26 HTML / CSS
Ajax的工作原理
2015/12/04 面试题
电子商务专业实习生自我鉴定
2013/09/24 职场文书
区域总监的岗位职责
2013/11/21 职场文书
毕业生优秀推荐信
2013/11/26 职场文书
研究生给导师的自荐信
2015/03/06 职场文书
2015公司年度工作总结
2015/05/14 职场文书
老人院义工活动感想
2015/08/07 职场文书
css3 filter属性的使用简介
2021/03/31 HTML / CSS
MySQL安装失败的原因及解决步骤
2022/06/14 MySQL