python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python脚本爬取字体文件的实现方法
Apr 29 Python
python读取文件名称生成list的方法
Apr 27 Python
python中单下划线_的常见用法总结
Jul 10 Python
使用python Telnet远程登录执行程序的方法
Jan 26 Python
利用python实现短信和电话提醒功能的例子
Aug 08 Python
Python原始套接字编程实例解析
Jan 29 Python
keras分类之二分类实例(Cat and dog)
Jul 09 Python
Python操作Elasticsearch处理timeout超时
Jul 17 Python
python在linux环境下安装skimage的示例代码
Oct 14 Python
python 爬虫之selenium可视化爬虫的实现
Dec 04 Python
高考要来啦!用Python爬取历年高考数据并分析
Jun 03 Python
Python办公自动化PPT批量转换操作
Sep 15 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
一家之言的经验之谈php+mysql扎实个人基本功
2008/03/27 PHP
php中如何同时使用session和cookie来保存用户登录信息
2013/07/05 PHP
详解PHP的Yii框架中组件行为的属性注入和方法注入
2016/03/18 PHP
捕获和分析JavaScript Error的方法
2014/03/25 Javascript
jQuery点缩略图弹出层显示大图片
2015/02/13 Javascript
jQuery的animate函数实现图文切换动画效果
2015/05/03 Javascript
ES2015 Symbol 一种绝不重复的值
2016/12/25 Javascript
ES6概念 Symbol toString()方法
2016/12/25 Javascript
AngularJS+bootstrap实现动态选择商品功能示例
2017/05/17 Javascript
nodejs前端自动化构建环境的搭建
2017/07/26 NodeJs
bootstrap multiselect下拉列表功能
2017/08/22 Javascript
seajs中最常用的7个功能、配置示例
2017/10/10 Javascript
js简单遍历获取对象中的属性值的方法示例
2019/06/19 Javascript
jQuery实现王者荣耀手风琴效果
2020/01/17 jQuery
[02:32]DOTA2亚洲邀请赛 C9战队出场宣传片
2015/02/07 DOTA
python使用any判断一个对象是否为空的方法
2014/11/19 Python
Python随机生成信用卡卡号的实现方法
2015/05/14 Python
简单介绍Python2.x版本中的cmp()方法的使用
2015/05/20 Python
Python内建数据结构详解
2016/02/03 Python
python使用pymysql实现操作mysql
2016/09/13 Python
简单了解Python中的几种函数
2017/11/03 Python
利用Opencv中Houghline方法实现直线检测
2018/02/11 Python
Python实现的个人所得税计算器示例
2018/06/01 Python
详解Python匿名函数(lambda函数)
2019/04/19 Python
浅析Python 引号、注释、字符串
2019/07/25 Python
python实现简易学生信息管理系统
2020/04/05 Python
基于django 的orm中非主键自增的实现方式
2020/05/18 Python
浅谈Python中的字符串
2020/06/10 Python
Lampegiganten丹麦:欧洲领先的照明网上商店
2018/04/25 全球购物
美国厨房和园艺工具网上商店:Nestneed
2019/08/24 全球购物
《学棋》教后反思
2014/04/14 职场文书
团代会宣传工作方案
2014/05/08 职场文书
2014卖家双十一活动策划书
2014/09/29 职场文书
教师学习三严三实心得体会
2014/10/13 职场文书
党的群众路线教育实践活动批评与自我批评范文
2014/10/16 职场文书
单位考核聘任报告
2015/03/02 职场文书