编程 Python

Python爬虫基础之爬虫的分类知识总结

Posted in Python onMay 13, 2021

一、通用爬虫

通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

第一步

搜索引擎去成千上万个网站抓取数据。

第二步

搜索引擎通过爬虫爬取到的网页，将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的HTML是完全—样的。

第三步

搜索引擎将爬虫抓取回来的页面，进行各种步骤的预处理:中文分词，消除噪音，索引处理。。。
搜索引擎在对信息进行组织和处理后，为用户提供关键字检索服务，将用户检索相关的信息展示给用户。展示的时候会进行排名。

二、搜索引擎的局限性

搜索引擎抓取的是整个网页，不是具体详细的信息。
搜索引擎无法提供针对具体某个客户需求的搜索结果。

聚焦爬虫

针对通用爬虫的这些情况，聚焦爬虫技术得以广泛使用。聚焦爬虫，是"面向特定主题需求"的一种网络爬虫程序，它与通用搜索引擎爬虫的区别在于：聚焦爬虫在实施网页抓取时会对内容进行处理筛选，尽量保证只抓取与需求相关的网页数据。

三、Robots协议

robots是网站跟爬虫间的协议，用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限，也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

Robots协议也叫爬虫协议、机器人协议等，全称是“网络爬虫排除标准”(Robots ExclusionProtocol)，网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取，例如:

淘宝: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、请求与相应

网络通信由两部分组成:客户端请求消息与服务器响应消息

Python爬虫基础之爬虫的分类知识总结

浏览器发送HTTP请求的过程：

Python爬虫基础之爬虫的分类知识总结

1.当我们在浏览器输入URL https://www.baidu.com的时候，浏览器发送一个Request请求去
获取 https://www.baidu.com 的html文件，服务器把Response文件对象发送回给浏览器。

2.浏览器分析Response中的HTML，发现其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。浏览器会自动再次发送Request去获取图片，CSS文件，或者JS文件。

3.当所有的文件都下载成功后，网页会根据HTML语法结构，完整的显示出来了。

实际上我们通过学习爬虫技术爬取数据，也是向服务器请求数据,获取服务器响应数据的过程。

到此这篇关于Python爬虫基础之爬虫的分类知识总结的文章就介绍到这了,更多相关Python爬虫的分类内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫基础之爬虫的分类知识总结

- Author -

松鼠爱吃饼干

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现端口转发器的方法

Mar 13 Python

python实现时间o(1)的最小栈的实例代码

Jul 23 Python

python模糊图片过滤的方法

Dec 14 Python

python set内置函数的具体使用

Jul 02 Python

pandas删除行删除列增加行增加列的实现

Jul 06 Python

Django后端接收嵌套Json数据及解析详解

Jul 17 Python

python 设置xlabel,ylabel 坐标轴字体大小,字体类型

Jul 23 Python

Django文件存储默认存储系统解析

Aug 02 Python

pytorch 数据处理:定义自己的数据集合实例

Dec 31 Python

dpn网络的pytorch实现方式

Jan 14 Python

Python urllib3软件包的使用说明

Nov 18 Python

python爬虫快速响应服务器的做法

Nov 24 Python

pytorch中的numel函数用法说明

May 13 #Python

pytorch损失反向传播后梯度为none的问题

如何使用Python实现一个简易的ORM模型

May 12 #Python

用python删除文件夹中的重复图片(图片去重)

May 12 #Python

Pyhton模块和包相关知识总结

python 下划线的多种应用场景总结

May 12 #Python

超级详细实用的pycharm常用快捷键

You might like

PHP+javascript制作带提示的验证码源码分享

2014/05/28 PHP

Fedora下安装php Redis扩展笔记

2014/09/03 PHP

php实现根据词频生成tag云的方法

2015/04/17 PHP

基于laravel where的高级使用方法

2019/10/10 PHP

TP5框架实现上传多张图片的方法分析

2020/03/29 PHP

JavaScript高级程序设计（第3版）学习笔记4 js运算符和操作符

2012/10/11 Javascript

jquery中animate动画积累的解决方法

2013/10/05 Javascript

js简单实现根据身份证号码识别性别年龄生日

2013/11/29 Javascript

深入探讨JavaScript、JQuery屏蔽网页鼠标右键菜单及禁止选择复制

2014/06/10 Javascript

jQuery simplePage+AJAX plus分页插件用法实例

2016/02/17 Javascript

jquery trigger函数执行两次的解决方法

2016/02/29 Javascript

解析javascript瀑布流原理实现图片滚动加载

2016/03/10 Javascript

JavaScript实现弹出DIV层同时页面背景渐变成半透明效果

2016/03/25 Javascript

关于javascript原型的修改与重写(覆盖)差别详解

2016/08/31 Javascript

使用vue.js实现联动效果的示例代码

2017/01/10 Javascript

JS简单验证上传文件类型的方法

2017/04/17 Javascript

JavaScript调试之console.log调试的一个小技巧分享

2017/08/07 Javascript

JavaScript中附件预览功能实现详解（推荐）

2017/08/15 Javascript

详解webpack2+node+react+babel实现热加载(hmr)

2017/08/24 Javascript

javascript将json格式数组下载为excel表格的方法

2017/12/22 Javascript

js中自定义react数据验证组件实例详解

2018/10/19 Javascript

Node.js 多进程处理CPU密集任务的实现

2019/05/26 Javascript

Postman无法正常返回结果问题解决

2020/08/28 Javascript

[52:10]LGD vs Optic Supermajor小组赛D组胜者组决赛 BO3 第二场 6.3

2018/06/04 DOTA

Python中对列表排序实例

2015/01/04 Python

在Python的Django框架下使用django-tagging的教程

2015/05/30 Python

python用线性回归预测股票价格的实现代码

2019/09/04 Python

python中altair可视化库实例用法

2021/01/26 Python

pycharm配置安装autopep8自动规范代码的实现

2021/03/02 Python

生产厂厂长岗位职责

2013/12/25 职场文书

班长演讲稿范文

2014/04/24 职场文书

考核评语大全

2014/04/29 职场文书

2019开业庆典剪彩仪式主持词！

2019/07/22 职场文书

学会Python数据可视化必须尝试这7个库

2021/06/16 Python

MySQL中datetime时间字段的四舍五入操作

2021/10/05 MySQL

进行数据处理的6个 Python 代码块分享

2022/04/06 Python