python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python time模块用法实例详解
Sep 11 Python
Python中的模块和包概念介绍
Apr 13 Python
Python中对元组和列表按条件进行排序的方法示例
Nov 10 Python
Python 加密与解密小结
Dec 06 Python
Python中如何使用if语句处理列表实例代码
Feb 24 Python
python3获取当前目录的实现方法
Jul 29 Python
对python中的装包与解包实例详解
Aug 24 Python
wxPython实现画图板
Aug 27 Python
解决启动django,浏览器显示“服务器拒绝访问”的问题
May 13 Python
Python3内置函数chr和ord实现进制转换
Jun 05 Python
基于keras中的回调函数用法说明
Jun 17 Python
python为什么会环境变量设置不成功
Jun 23 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
简单的页面缓冲技术
2006/10/09 PHP
PHP中foreach循环中使用引用要注意的地方
2011/01/02 PHP
php中mail函数发送邮件失败的解决方法
2014/12/24 PHP
php查询操作实现投票功能
2016/05/09 PHP
PHP实现的简单sha1加密功能示例
2017/08/27 PHP
laravel按天、按小时,查询数据的实例
2019/10/09 PHP
Knockoutjs 学习系列(二)花式捆绑
2016/06/07 Javascript
Vue.js进阶知识点总结
2018/04/01 Javascript
移动端吸顶fixbar的解决方案详解
2019/07/17 Javascript
Vue 打包体积优化方案小结
2020/05/20 Javascript
js实现盒子移动动画效果
2020/08/09 Javascript
[01:09:13]DOTA2-DPC中国联赛 正赛 CDEC vs XG BO3 第三场 1月19日
2021/03/11 DOTA
python发送邮件的实例代码(支持html、图片、附件)
2013/03/04 Python
Python中使用urllib2防止302跳转的代码例子
2014/07/07 Python
Python3.2中的字符串函数学习总结
2015/04/23 Python
Python计算字符宽度的方法
2016/06/14 Python
微信 用脚本查看是否被微信好友删除
2016/10/28 Python
Python只用40行代码编写的计算器实例
2017/05/10 Python
Python遍历numpy数组的实例
2018/04/04 Python
python TKinter获取文本框内容的方法
2018/10/11 Python
详解Python 正则表达式模块
2018/11/05 Python
详解python的四种内置数据结构
2019/03/19 Python
Python minidom模块用法示例【DOM写入和解析XML】
2019/03/25 Python
Python2与Python3的区别详解
2020/02/09 Python
python实现126邮箱发送邮件
2020/05/20 Python
Python爬取你好李焕英豆瓣短评生成词云的示例代码
2021/02/24 Python
Belstaff英国官方在线商店:Belstaff.co.uk
2021/02/09 全球购物
微观物理专业自荐信
2014/01/26 职场文书
公司中层干部的自我评价分享
2014/03/01 职场文书
公司领导班子对照材料
2014/08/18 职场文书
党委书记个人检查对照材料思想汇报
2014/10/11 职场文书
高考升学宴答谢词
2015/01/20 职场文书
飞越疯人院观后感
2015/06/09 职场文书
超级礼物观后感
2015/06/15 职场文书
一篇合格的广告文案,其主要目的是什么?
2019/07/12 职场文书
MySQL提升大量数据查询效率的优化神器
2022/07/07 MySQL