python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
python中cPickle用法例子分享
Jan 03 Python
Python实现新浪博客备份的方法
Apr 27 Python
python 实现红包随机生成算法的简单实例
Jan 04 Python
PyQt5实现下载进度条效果
Apr 19 Python
Django1.9 加载通过ImageField上传的图片方法
May 25 Python
pytorch + visdom 处理简单分类问题的示例
Jun 04 Python
django rest framework 数据的查找、过滤、排序的示例
Jun 25 Python
python的常用模块之collections模块详解
Dec 06 Python
Python Django框架实现应用添加logging日志操作示例
May 17 Python
Python爬虫抓取技术的一些经验
Jul 12 Python
Matplotlib自定义坐标轴刻度的实现示例
Jun 18 Python
Anaconda安装pytorch及配置PyCharm 2021环境
Jun 04 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
PHP源代码数组统计count分析
2011/08/02 PHP
PHP延迟静态绑定示例分享
2014/06/22 PHP
使用array_map简单搞定PHP删除文件、删除目录
2014/10/29 PHP
thinkPHP简单遍历数组方法分析
2016/05/16 PHP
Laravel中间件实现原理详解
2016/10/09 PHP
php微信公众号开发(3)php实现简单微信文本通讯
2016/12/15 PHP
[原创]PHP获取数组表示的路径方法分析【数组转字符串】
2017/09/01 PHP
JS加ASP二级域名转向的代码
2007/05/17 Javascript
IE浏览器PNG图片透明效果代码
2008/09/02 Javascript
jQuery EasyUI 开源插件套装 完全替代ExtJS
2010/03/24 Javascript
JQuery 操作/获取table具体代码
2013/06/13 Javascript
js去空格技巧分别去字符串前后、左右空格
2013/10/21 Javascript
同域jQuery(跨)iframe操作DOM(示例代码)
2013/12/13 Javascript
JS+CSS实现自动改变切换方向图片幻灯切换效果的方法
2015/03/02 Javascript
JS替换字符串中空格方法
2015/04/17 Javascript
clipboard.js无需Flash无需依赖任何JS库实现文本复制与剪切
2015/10/10 Javascript
Bootstrap表单Form全面解析
2016/06/13 Javascript
BootStrap智能表单实战系列(九)表单图片上传的支持
2016/06/13 Javascript
js原生跨域_用script标签的简单实现
2016/09/24 Javascript
简单实现JS计算器功能
2016/12/21 Javascript
详解Vue+elementUI build打包部署后字体图标丢失问题
2020/07/13 Javascript
Vue实现移动端拖拽交换位置
2020/07/29 Javascript
React 条件渲染最佳实践小结(7种)
2020/09/27 Javascript
用python 制作图片转pdf工具
2015/01/30 Python
python实现在sqlite动态创建表的方法
2015/05/08 Python
Python 的描述符 descriptor详解
2016/02/27 Python
一些常用的Python爬虫技巧汇总
2016/09/28 Python
使用CSS3美化HTML表单的技巧演示
2016/05/17 HTML / CSS
CSS3实现翘边的阴影效果的代码示例
2016/06/13 HTML / CSS
大学生毕业自我鉴定范文
2013/09/19 职场文书
保送生自荐信范文
2013/10/06 职场文书
建筑个人求职信范文
2014/01/25 职场文书
幼儿园小班家长寄语
2014/04/02 职场文书
勤俭节约演讲稿
2014/05/08 职场文书
公司租房协议书
2014/10/14 职场文书
JS前端使用canvas实现扩展物体类和事件派发
2022/08/05 Javascript