python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
Python实现的多线程http压力测试代码
Feb 08 Python
python 链接和操作 memcache方法
Mar 04 Python
python与C互相调用的方法详解
Jul 14 Python
tensorflow学习笔记之简单的神经网络训练和测试
Apr 15 Python
python SMTP实现发送带附件电子邮件
May 22 Python
Python简单处理坐标排序问题示例
Jul 11 Python
python中remove函数的踩坑记录
Jan 04 Python
Python获取百度热搜的完整代码
Apr 07 Python
Jupyter notebook 输出部分显示不全的解决方案
Apr 24 Python
Python基础之操作MySQL数据库
May 06 Python
python中pymysql包操作数据库方法
Apr 19 Python
Python如何快速找到多个字典中的公共键(key)
Apr 29 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
PHP删除非空目录的函数代码小结
2013/02/28 PHP
解析Extjs与php数据交互(增删查改)
2013/06/25 PHP
php防止sql注入之过滤分页参数实例
2014/11/03 PHP
详解PHP中的PDO类
2015/07/06 PHP
PHP面向对象自动加载机制原理与用法分析
2016/10/14 PHP
PHP实现打包zip并下载功能
2018/06/12 PHP
Yii2结合Workerman的websocket示例详解
2018/09/10 PHP
PHP单例模式模拟Java Bean实现方法示例
2018/12/07 PHP
JavaScript之HTMLCollection接口代码
2011/04/27 Javascript
基于JavaScript实现 获取鼠标点击位置坐标的方法
2013/04/12 Javascript
jquery UI Datepicker时间控件的使用方法(加强版)
2015/11/07 Javascript
安装使用Mongoose配合Node.js操作MongoDB的基础教程
2016/03/01 Javascript
基于ajax与msmq技术的消息推送功能实现代码
2016/12/26 Javascript
纯js实现html转pdf的简单实例(推荐)
2017/02/16 Javascript
从零开始学习Node.js系列教程之基于connect和express框架的多页面实现数学运算示例
2017/04/13 Javascript
Vue项目中设置背景图片方法
2018/02/21 Javascript
vue.js项目nginx部署教程
2018/04/05 Javascript
vue-router 中 meta的用法详解
2019/11/01 Javascript
原生js实现贪吃蛇游戏
2020/10/26 Javascript
基于Cesium绘制抛物弧线
2020/11/18 Javascript
idea创建springMVC框架和配置小文件的教程图解
2018/09/18 Python
Python paramiko模块使用解析(实现ssh)
2019/08/30 Python
TensorFlow实现checkpoint文件转换为pb文件
2020/02/10 Python
Python垃圾回收机制三种实现方法
2020/04/27 Python
基于python实现matlab filter函数过程详解
2020/06/08 Python
澳大利亚小众服装品牌:Maurie & Eve
2018/03/27 全球购物
Troy-Bilt官网:草坪割草机、吹雪机、分蘖机等
2019/02/19 全球购物
英国网上自行车商店:Tredz Bikes
2019/10/29 全球购物
美国沃尔玛网上超市:Walmart
2020/08/14 全球购物
国际贸易专业推荐信
2013/11/15 职场文书
副厂长岗位职责
2014/02/02 职场文书
《最大的“书”》教学反思
2014/02/14 职场文书
《小池塘》教学反思
2014/02/28 职场文书
中学生演讲稿
2014/04/26 职场文书
党员干部反四风对照检查材料思想汇报
2014/09/14 职场文书
东京审判观后感
2015/06/01 职场文书