python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
如何解决django配置settings时遇到Could not import settings 'conf.local'
Nov 18 Python
Python yield与实现方法代码分析
Feb 06 Python
Python中的上下文管理器和with语句的使用
Apr 17 Python
Python装饰器原理与简单用法实例分析
Apr 29 Python
基于sklearn实现Bagging算法(python)
Jul 11 Python
python命名空间(namespace)简单介绍
Aug 10 Python
python自动循环定时开关机(非重启)测试
Aug 26 Python
15个Pythonic的代码示例(值得收藏)
Oct 29 Python
Python实现异步IO的示例
Nov 05 Python
Django中使用Celery的方法步骤
Dec 07 Python
selenium+headless chrome爬虫的实现示例
Jan 08 Python
Python 中的 copy()和deepcopy()
Nov 07 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
全国FM电台频率大全 - 7 吉林省
2020/03/11 无线电
第四节--构造函数和析构函数
2006/11/16 PHP
php 数组二分法查找函数代码
2010/02/16 PHP
PHP中的integer类型使用分析
2010/07/27 PHP
学习php设计模式 php实现模板方法模式
2015/12/08 PHP
JQuery 学习笔记 选择器之三
2009/07/23 Javascript
jQuery.fn和jQuery.prototype区别介绍
2013/10/05 Javascript
javascript:void(0)的问题使用探讨
2014/04/10 Javascript
node.js中的http.createClient方法使用说明
2014/12/15 Javascript
JavaScript动态修改网页元素内容的方法
2015/03/21 Javascript
jquery选择器简述
2015/08/31 Javascript
基于jQuery实现网页打印功能
2015/12/01 Javascript
jQuery+jsp实现省市县三级联动效果(附源码)
2015/12/03 Javascript
javascript 继承学习心得总结
2016/03/17 Javascript
基于JQuery打造无缝滚动新闻步骤详解
2016/03/31 Javascript
JavaScript几种数组去掉重复值的方法推荐
2016/04/12 Javascript
pc加载更多功能和移动端下拉刷新加载数据
2016/11/07 Javascript
JavaScript中 this 指向问题深度解析
2017/02/21 Javascript
JavaScript求一个数组中重复出现次数最多的元素及其下标位置示例
2018/07/23 Javascript
jQuery.parseJSON()函数详解
2019/02/28 jQuery
解决vue中el-tab-pane切换的问题
2020/07/19 Javascript
python实现监控windows服务并自动启动服务示例
2014/04/17 Python
Python入门_学会创建并调用函数的方法
2017/05/16 Python
基于Python的XSS测试工具XSStrike使用方法
2017/07/29 Python
pycharm配置pyqt5-tools开发环境的方法步骤
2019/02/11 Python
详解python做UI界面的方法
2019/02/27 Python
Python获取数据库数据并保存在excel表格中的方法
2019/06/12 Python
Python如何实现感知器的逻辑电路
2020/12/25 Python
图书室管理制度
2014/01/19 职场文书
企业办公室岗位职责
2014/03/12 职场文书
同学聚会策划方案
2014/06/06 职场文书
学校领导班子对照检查材料
2014/08/28 职场文书
毕业设计指导教师评语
2014/12/30 职场文书
2019思想汇报范文
2019/05/21 职场文书
vue 实现上传组件
2021/05/31 Vue.js
MySQL数据库简介与基本操作
2022/05/30 MySQL