python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
Jupyter安装nbextensions,启动提示没有nbextensions库
Apr 23 Python
Python基于FTP模块实现ftp文件上传操作示例
Apr 23 Python
python安装模块如何通过setup.py安装(超简单)
May 05 Python
numpy判断数值类型、过滤出数值型数据的方法
Jun 09 Python
Python将列表数据写入文件(txt, csv,excel)
Apr 03 Python
Python转换时间的图文方法
Jul 01 Python
python爬虫中多线程的使用详解
Sep 23 Python
python bluetooth蓝牙信息获取蓝牙设备类型的方法
Nov 29 Python
Python命令行click参数用法解析
Dec 19 Python
Pytorch 实现数据集自定义读取
Jan 18 Python
Django中modelform组件实例用法总结
Feb 10 Python
Python使用socketServer包搭建简易服务器过程详解
Jun 12 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
PHP游戏编程25个脚本代码
2011/02/08 PHP
PHP将XML转数组过程详解
2013/11/13 PHP
php实现的常见排序算法汇总
2014/09/08 PHP
php递归实现无限分类的方法
2015/07/28 PHP
解读PHP中的垃圾回收机制
2015/08/10 PHP
AppBaseJs 类库 网上常用的javascript函数及其他js类库写的
2010/03/04 Javascript
快速排序 php与javascript的不同之处
2011/02/22 Javascript
js 判断文件类型并控制表单提交示例代码
2013/11/14 Javascript
js日期对象兼容性的处理方法
2014/01/28 Javascript
Bootstrap每天必学之折叠
2016/04/12 Javascript
JS工作中的小贴士之”闭包“与事件委托的”阻止冒泡“
2016/06/16 Javascript
node.js程序作为服务并在windows下开机自启动(用forever)
2017/03/29 Javascript
Vue瀑布流插件的使用示例
2018/09/19 Javascript
基于redis的小程序登录实现方法流程分析
2020/05/25 Javascript
[01:11:35]Liquid vs LGD 2018国际邀请赛小组赛BO2 第一场 8.16
2018/08/17 DOTA
Python的Flask框架中集成CKeditor富文本编辑器的教程
2016/06/13 Python
python学习笔记--将python源文件打包成exe文件(pyinstaller)
2018/05/26 Python
python函数与方法的区别总结
2019/06/23 Python
python 3.6.7实现端口扫描器
2019/09/04 Python
wxPython实现带颜色的进度条
2019/11/19 Python
Python如何使用input函数获取输入
2020/08/06 Python
Html5中localStorage存储JSON数据并读取JSON数据的实现方法
2017/02/13 HTML / CSS
印尼旅游网站:via
2017/11/12 全球购物
英国可持续奢侈品包包品牌:Elvis & Kresse
2018/08/05 全球购物
SEPHORA丝芙兰捷克官网:购买香水、化妆品和护肤品
2018/11/26 全球购物
常用UNIX 命令(Linux的常用命令)
2013/07/10 面试题
怎样声明一个匿名的内部类
2016/06/01 面试题
毕业设计计划书
2014/01/09 职场文书
大学旷课检讨书
2014/01/28 职场文书
科技开发中心办公室主任岗位责任制
2014/02/10 职场文书
教师读书活动总结
2014/05/07 职场文书
大学生社会实践方案
2014/05/11 职场文书
个人政风行风自查自纠报告
2014/10/21 职场文书
redis 查看所有的key方式
2021/05/07 Redis
Python基于百度API识别并提取图片中文字
2021/06/27 Python
关于React Native使用axios进行网络请求的方法
2021/08/02 Javascript