python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python解析xml文件操作实例
Oct 05 Python
Python实现删除Android工程中的冗余字符串
Jan 19 Python
python访问类中docstring注释的实现方法
May 04 Python
Python利用前序和中序遍历结果重建二叉树的方法
Apr 27 Python
浅谈python和C语言混编的几种方式(推荐)
Sep 27 Python
PyQt5每天必学之QSplitter实现窗口分隔
Apr 19 Python
python实现事件驱动
Nov 21 Python
python覆盖写入,追加写入的实例
Jun 26 Python
用Python调用win命令行提高工作效率的实例
Aug 14 Python
pytorch中的自定义反向传播,求导实例
Jan 06 Python
Python3将ipa包中的文件按大小排序
Apr 17 Python
python自动化测试三部曲之unittest框架的实现
Oct 07 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
PHP4实际应用经验篇(4)
2006/10/09 PHP
php入门学习知识点六 PHP文件的读写操作代码
2011/07/14 PHP
[原创]smarty简单模板变量输出方法
2016/07/09 PHP
php无限级分类实现方法分析
2016/10/19 PHP
[原创]php使用strpos判断字符串中数字类型子字符串出错的解决方法
2017/04/01 PHP
动态加载iframe
2006/06/16 Javascript
许愿墙中用到的函数
2006/10/07 Javascript
jQuery的css()方法用法实例
2014/12/24 Javascript
JS实现的通用表单验证插件完整实例
2015/08/20 Javascript
JS基于面向对象实现的拖拽库实例
2015/09/24 Javascript
javascript:void(0)是什么意思及href=#与href=javascriptvoid(0)的区别
2015/11/13 Javascript
JavaScript获取当前运行脚本文件所在目录的方法
2016/02/03 Javascript
ReactNative页面跳转实例代码
2016/09/27 Javascript
微信小程序实现长按删除图片的示例
2018/05/18 Javascript
详解vue-router 命名路由和命名视图
2018/06/01 Javascript
jQuery实现的简单歌词滚动功能示例
2019/01/07 jQuery
layui实现显示数据表格、搜索和修改功能示例
2020/06/03 Javascript
JavaScript中的执行环境和作用域链
2020/09/04 Javascript
vue3.0生命周期的示例代码
2020/09/24 Javascript
[02:23]完美世界全国高校联赛街访DOTA2第一期
2019/11/28 DOTA
详解Python实现按任意键继续/退出的功能
2016/08/19 Python
Python做文本按行去重的实现方法
2016/10/19 Python
python多进程实现文件下载传输功能
2018/07/28 Python
python 实现将Numpy数组保存为图像
2020/01/09 Python
如何理解Python中的变量
2020/06/01 Python
浅谈Python 钉钉报警必备知识系统讲解
2020/08/17 Python
python 监控服务器是否有人远程登录(详细思路+代码)
2020/12/18 Python
利用CSS3的定位页面元素
2009/08/29 HTML / CSS
瑞典耳机品牌:URBANISTA
2019/12/03 全球购物
Linux如何压缩可执行文件
2013/10/21 面试题
2014年财务工作自我评价
2014/09/23 职场文书
新郎答谢词
2015/01/04 职场文书
人才市场接收函
2015/01/30 职场文书
2015秋季新学期开学寄语
2015/05/28 职场文书
2015年小学教师培训工作总结
2015/07/21 职场文书
JavaScript利用html5新方法操作元素类名详解
2021/11/27 Javascript