python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python list语法学习(带例子)
Nov 01 Python
python生成随机mac地址的方法
Mar 16 Python
编写Python脚本来获取mp3文件tag信息的教程
May 04 Python
Python实现堡垒机模式下远程命令执行操作示例
May 09 Python
使用python telnetlib批量备份交换机配置的方法
Jul 25 Python
Python 合并多个TXT文件并统计词频的实现
Aug 23 Python
python模块导入的方法
Oct 24 Python
Python实现自定义读写分离代码实例
Nov 16 Python
Pytorch 搭建分类回归神经网络并用GPU进行加速的例子
Jan 09 Python
Python hashlib常见摘要算法详解
Jan 13 Python
python 实现aes256加密
Nov 27 Python
Python 打印自己设计的字体的实例讲解
Jan 04 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
类的另类用法--数据的封装
2006/10/09 PHP
网页游戏开发入门教程二(游戏模式+系统)
2009/11/02 PHP
php curl 登录163邮箱并抓取邮箱好友列表的代码(经测试)
2011/04/07 PHP
PHP代码覆盖率统计详解
2020/07/22 PHP
js模拟实现Array的sort方法
2007/12/11 Javascript
ext form 表单提交数据的方法小结
2008/08/08 Javascript
爆炸式的JS圆形浮动菜单特效代码
2010/03/03 Javascript
学习面向对象之面向对象的基本概念:对象和其他基本要素
2010/11/30 Javascript
json的前台操作和后台操作实现代码
2012/01/20 Javascript
网页右键ie不支持event.preventDefault和event.returnValue (需要加window)
2013/02/22 Javascript
jQuery中实现动画效果的基本操作介绍
2013/04/16 Javascript
onbeforeunload与onunload事件异同点总结
2013/06/24 Javascript
JavaScript中“过于”犀利地for/in循环使用示例
2013/10/22 Javascript
使用JavaScript的AngularJS库编写hello world的方法
2015/06/23 Javascript
js实现选中复选框文字变色的方法
2015/08/14 Javascript
js+html获取系统当前时间
2017/11/10 Javascript
基于Vue 2.0 监听文本框内容变化及ref的使用说明介绍
2018/08/24 Javascript
js 使用ajax设置和获取自定义header信息的方法小结
2020/03/12 Javascript
JS代码简洁方式之函数方法详解
2020/07/28 Javascript
Python中IPYTHON入门实例
2015/05/11 Python
利用python代码写的12306订票代码
2015/12/20 Python
python之virtualenv的简单使用方法(必看篇)
2017/11/25 Python
Python判断对象是否为文件对象(file object)的三种方法示例
2019/04/26 Python
python爬虫项目设置一个中断重连的程序的实现
2019/07/26 Python
Python selenium模块实现定位过程解析
2020/07/09 Python
python从PDF中提取数据的示例
2020/10/30 Python
Python 实现PS滤镜的旋涡特效
2020/12/03 Python
numpy实现RNN原理实现
2021/03/02 Python
怀旧香味蜡烛:Homesick
2019/11/02 全球购物
学习新党章思想汇报
2014/01/09 职场文书
初二政治教学反思
2014/01/12 职场文书
买房委托公证书
2014/04/08 职场文书
小班幼儿评语大全
2014/04/30 职场文书
2015年超市收银员工作总结
2015/04/25 职场文书
如何设置多台电脑共享打印机?多台电脑共享打印机的方法
2022/04/08 数码科技
Android自定义双向滑动控件
2022/04/19 Java/Android