python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python线程、进程和协程详解
Jul 19 Python
Django 路由系统URLconf的使用
Oct 11 Python
详解pandas库pd.read_excel操作读取excel文件参数整理与实例
Feb 17 Python
Django框架模板文件使用及模板文件加载顺序分析
May 23 Python
PyQt5图形界面播放音乐的实例
Jun 17 Python
Python利用神经网络解决非线性回归问题实例详解
Jul 19 Python
python实现数据清洗(缺失值与异常值处理)
Dec 02 Python
Python通过TensorFLow进行线性模型训练原理与实现方法详解
Jan 15 Python
python设置环境变量的作用整理
Feb 17 Python
Python 使用Opencv实现目标检测与识别的示例代码
Sep 08 Python
Restful_framework视图组件代码实例解析
Nov 17 Python
基于PyQt5制作一个群发邮件工具
Apr 08 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
使用sockets:从新闻组中获取文章(一)
2006/10/09 PHP
PHP注释实例技巧
2008/10/03 PHP
探讨PHP中this,self,parent的区别详解
2013/06/08 PHP
php实现递归抓取网页类实例
2015/04/03 PHP
微信公众号OAuth2.0网页授权问题浅析
2017/01/21 PHP
jQuery.getScript加载同域JS的代码
2012/02/13 Javascript
HTML中的setCapture和releaseCapture使用介绍
2012/03/21 Javascript
Jquery中val()表单取值赋值的实例代码
2013/08/15 Javascript
extjs表格文本启用选择复制功能具体实现
2013/10/11 Javascript
javascript删除一个html元素节点的方法
2014/12/20 Javascript
jQuery中ajax的load()方法用法实例
2014/12/26 Javascript
javascript格式化json显示实例分析
2015/04/21 Javascript
jquery实现点击变换导航样式的方法
2015/08/31 Javascript
全面解析Angular中$Apply()及$Digest()的区别
2016/08/04 Javascript
详细总结Javascript中的焦点管理
2016/09/17 Javascript
浅析 NodeJs 的几种文件路径
2017/06/07 NodeJs
你可能不知道的JSON.stringify()详解
2017/08/17 Javascript
React Native AsyncStorage本地存储工具类
2017/10/24 Javascript
javascript+jQuery实现360开机时间显示效果
2017/11/03 jQuery
vue-devtools的安装步骤
2018/04/23 Javascript
微信小程序实现左右联动的实战记录
2018/07/05 Javascript
关于Vue项目跨平台运行问题的解决方法
2018/09/18 Javascript
jQuery实现购物车的总价计算和总价传值功能
2018/11/28 jQuery
微信小程序实现人脸识别登陆的示例代码
2019/04/02 Javascript
微信网页登录逻辑与实现方法
2019/04/29 Javascript
微信小程序实现获取用户信息并存入数据库操作示例
2019/05/07 Javascript
在实例中重学JavaScript事件循环
2020/12/03 Javascript
[04:00]DOTA2解说界神雕侠侣 CJ第四天谷子现场过生日
2013/07/30 DOTA
Python3正则匹配re.split,re.finditer及re.findall函数用法详解
2018/06/11 Python
Python元组 tuple的概念与基本操作详解【定义、创建、访问、计数、推导式等】
2019/10/30 Python
Html5之webcoekt播放JPEG图片流
2020/09/22 HTML / CSS
英国二手物品交易网站:Preloved
2017/10/06 全球购物
Guess美国官网:美国知名服装品牌
2019/04/08 全球购物
2013年军训通讯稿
2014/02/05 职场文书
车队司机个人自我鉴定
2014/04/17 职场文书
小学优秀班主任材料
2014/12/17 职场文书