编程 Python

python构建基础的爬虫教学

Posted in Python onDecember 23, 2018

爬虫具有域名切换、信息收集以及信息存储功能。

这里讲述如何构建基础的爬虫架构。

1、

urllib库：包含从网络请求数据、处理cookie、改变请求头和用户处理元数据的函数。是python标准库.urlopen用于打开读取一个从网络获取的远程对象。能轻松读取HTML文件、图像文件及其他文件流。

2、

beautifulsoup库：通过定位HTML标签格式化和组织复杂的网络信息，用python对象展现XML结构信息。不是标准库，可用pip安装。常用的对象是BeautifulSoup对象。

1、基础爬虫

爬虫需要首先import对象，然后打开网址，使用BeautifulSoup对网页内容进行读取。

python构建基础的爬虫教学

2、使用print输出打开的网址的内容。

python构建基础的爬虫教学

3、从输出中可以看出内容的结构为：

python构建基础的爬虫教学

4、输出内容中的html-body-h1的内容可使用四种语句。

python构建基础的爬虫教学

5、

BeautifulSoup可提取HTML、XML文件的任意节点的信息，只需要目标信息旁边或附近有标记。

1、Error

在运行代码时，经常会出现错误，看懂错误出现的原因才能解决存在的问题。

2、

在html=urlopen('')中会发生两种错误：网页在服务器上不存在或服务器不存在

。

3、网页在服务器上不存在会出现HTTPError，可使用try语句进行处理。

当程序返回HTTPError错误代码时，会显示错误内容。

python构建基础的爬虫教学

4、服务器不存在时，urlopen会返回None.

可使用判断语句进行检测。

调用的标签不存在会出现None，调用不存在的标签下的子标签，就会出现AttributeError错误。

python构建基础的爬虫教学

总结：以上就是关于python构建基础的爬虫的基础步骤内容，感谢大家的阅读和对三水点靠木的支持。

python构建基础的爬虫教学

- Author -

please1748

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中cPickle用法例子分享

Jan 03 Python

Python实现新浪博客备份的方法

Apr 27 Python

python 实现红包随机生成算法的简单实例

Jan 04 Python

PyQt5实现下载进度条效果

Apr 19 Python

Django1.9 加载通过ImageField上传的图片方法

May 25 Python

pytorch + visdom 处理简单分类问题的示例

Jun 04 Python

django rest framework 数据的查找、过滤、排序的示例

Jun 25 Python

python的常用模块之collections模块详解

Dec 06 Python

Python Django框架实现应用添加logging日志操作示例

May 17 Python

Python爬虫抓取技术的一些经验

Jul 12 Python

Matplotlib自定义坐标轴刻度的实现示例

Jun 18 Python

Anaconda安装pytorch及配置PyCharm 2021环境

Jun 04 Python

Flask之请求钩子的实现

Dec 23 #Python

python爬虫获取新浪新闻教学

Dec 23 #Python

Python爬虫文件下载图文教程

Dec 23 #Python

python爬虫获取百度首页内容教学

Dec 23 #Python

Python爬虫设置代理IP(图文)

Dec 23 #Python

celery4+django2定时任务的实现代码

Dec 23 #Python

python3使用pandas获取股票数据的方法

Dec 22 #Python