python构建基础的爬虫教学


Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库:包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、
beautifulsoup库:通过定位HTML标签格式化和组织复杂的网络信息,用python对象展现XML结构信息。不是标准库,可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象,然后打开网址,使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为:

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息,只需要目标信息旁边或附近有标记。

1、Error

在运行代码时,经常会出现错误,看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误:网页在服务器上不存在或服务器不存在

3、网页在服务器上不存在会出现HTTPError,可使用try语句进行处理。

当程序返回HTTPError错误代码时,会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时,urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None,调用不存在的标签下的子标签,就会出现AttributeError错误。

python构建基础的爬虫教学

总结:以上就是关于python构建基础的爬虫的基础步骤内容,感谢大家的阅读和对三水点靠木的支持。

Python 相关文章推荐
简单理解Python中的装饰器
Jul 31 Python
python中hashlib模块用法示例
Oct 30 Python
Python模拟脉冲星伪信号频率实例代码
Jan 03 Python
pycharm中成功运行图片的配置教程
Oct 28 Python
使用PM2+nginx部署python项目的方法示例
Nov 07 Python
django与小程序实现登录验证功能的示例代码
Feb 19 Python
Python实现的对一个数进行因式分解操作示例
Jun 27 Python
使用python绘制温度变化雷达图
Oct 18 Python
python GUI库图形界面开发之PyQt5信号与槽的高级使用技巧装饰器信号与槽详细使用方法与实例
Mar 06 Python
pycharm工具连接mysql数据库失败问题
Apr 01 Python
python中如何设置代码自动提示
Jul 15 Python
Python函数中的不定长参数相关知识总结
Jun 24 Python
Flask之请求钩子的实现
Dec 23 #Python
python爬虫获取新浪新闻教学
Dec 23 #Python
Python爬虫文件下载图文教程
Dec 23 #Python
python爬虫获取百度首页内容教学
Dec 23 #Python
Python爬虫设置代理IP(图文)
Dec 23 #Python
celery4+django2定时任务的实现代码
Dec 23 #Python
python3使用pandas获取股票数据的方法
Dec 22 #Python
You might like
神盾加密解密教程(一)PHP变量可用字符
2014/05/28 PHP
destoon实现资讯信息前面调用它所属分类的方法
2014/07/15 PHP
thinkPHP连接sqlite3数据库的实现方法(附Thinkphp代码生成器下载)
2016/05/27 PHP
Laravel程序架构设计思路之使用动作类
2018/06/07 PHP
JQuery AJAX实现目录浏览与编辑的代码
2008/10/21 Javascript
JavaScript中rem布局在react中的应用
2015/12/09 Javascript
基于BootStarp的Dailog
2016/04/28 Javascript
Bootstrap模块dropdown实现下拉框响应
2016/05/22 Javascript
JavaScript 通过Ajax 动态加载CheckBox复选框
2017/08/31 Javascript
vue点击input弹出带搜索键盘并监听该元素的方法
2018/08/25 Javascript
从零开始实现Vue简单的Toast插件
2018/12/03 Javascript
利用layer实现表单完美验证的方法
2019/09/26 Javascript
浅谈vue项目用到的mock数据接口的两种方式
2019/10/09 Javascript
浅谈Vue 函数式组件的使用技巧
2020/06/16 Javascript
vue - props 声明数组和对象操作
2020/07/30 Javascript
vue-以文件流-blob-的形式-下载-导出文件操作
2020/08/07 Javascript
[05:40]DOTA2荣耀之路6:Wings最后进攻
2018/05/30 DOTA
python简单判断序列是否为空的方法
2015/06/30 Python
浅谈python中的实例方法、类方法和静态方法
2017/02/17 Python
python smtplib模块自动收发邮件功能(二)
2018/05/22 Python
详细介绍pandas的DataFrame的append方法使用
2019/07/31 Python
Python一键安装全部依赖包的方法
2019/08/12 Python
python日期与时间戳的各种转换示例
2020/02/12 Python
python中添加模块导入路径的方法
2021/02/03 Python
纽约家具、家居装饰和地毯店:ABC Carpet & Home
2017/06/21 全球购物
波兰化妆品和护肤品购物网站:eKobieca
2019/08/30 全球购物
Whistles官网:英国女装品牌
2020/08/14 全球购物
自行车广告词大全
2014/03/21 职场文书
妇女干部培训方案
2014/05/12 职场文书
飞机制造技术专业求职信
2014/07/27 职场文书
小学一年级学生评语大全
2014/12/25 职场文书
酒店前台辞职书
2015/02/26 职场文书
七年级上册生物的课件
2019/08/07 职场文书
golang 实现时间戳和时间的转化
2021/05/07 Golang
Vue如何实现组件间通信
2021/05/15 Vue.js
MySQL数据库10秒内插入百万条数据的实现
2021/11/01 MySQL