Python爬虫基础之爬虫的分类知识总结


Posted in Python onMay 13, 2021

一、通用爬虫

通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

Python爬虫基础之爬虫的分类知识总结

第一步

搜索引擎去成千上万个网站抓取数据。

第二步

搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的HTML是完全—样的。

第三步

搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理:中文分词,消除噪音,索引处理。。。
搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。展示的时候会进行排名。

二、搜索引擎的局限性

  • 搜索引擎抓取的是整个网页,不是具体详细的信息。
  • 搜索引擎无法提供针对具体某个客户需求的搜索结果。

聚焦爬虫

针对通用爬虫的这些情况,聚焦爬虫技术得以广泛使用。聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页数据。

三、Robots协议

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

Robots协议也叫爬虫协议、机器人协议等,全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,例如:

淘宝: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、请求与相应

网络通信由两部分组成:客户端请求消息服务器响应消息

Python爬虫基础之爬虫的分类知识总结

浏览器发送HTTP请求的过程:

Python爬虫基础之爬虫的分类知识总结

1.当我们在浏览器输入URL https://www.baidu.com的时候,浏览器发送一个Request请求去
获取 https://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。

2.浏览器分析Response中的HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。

3.当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

实际上我们通过学习爬虫技术爬取数据,也是向服务器请求数据,获取服务器响应数据的过程。

到此这篇关于Python爬虫基础之爬虫的分类知识总结的文章就介绍到这了,更多相关Python爬虫的分类内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
wxpython 学习笔记 第一天
Feb 09 Python
操作Windows注册表的简单的Python程序制作教程
Apr 07 Python
Python利用openpyxl库遍历Sheet的实例
May 03 Python
Python检测网络延迟的代码
May 15 Python
django如何连接已存在数据的数据库
Aug 14 Python
python修改txt文件中的某一项方法
Dec 29 Python
python3.6下Numpy库下载与安装图文教程
Apr 02 Python
python使用MQTT给硬件传输图片的实现方法
May 05 Python
python中可以声明变量类型吗
Jun 18 Python
Pytorch 解决自定义子Module .cuda() tensor失败的问题
Jun 23 Python
PyTorch如何搭建一个简单的网络
Aug 24 Python
Python+pyaudio实现音频控制示例详解
Jul 23 Python
pytorch中的numel函数用法说明
May 13 #Python
pytorch损失反向传播后梯度为none的问题
如何使用Python实现一个简易的ORM模型
May 12 #Python
用python删除文件夹中的重复图片(图片去重)
May 12 #Python
Pyhton模块和包相关知识总结
python 下划线的多种应用场景总结
May 12 #Python
超级详细实用的pycharm常用快捷键
You might like
用php实现批量查询清除一句话后门的代码
2008/01/20 PHP
javascript通过class来获取元素实现代码
2013/02/20 Javascript
Jquery方式获取iframe页面中的 Dom元素
2014/05/07 Javascript
动态读取JSON解析键值对的方法
2014/06/03 Javascript
JavaScript截取字符串的2个函数介绍
2014/08/27 Javascript
jQuery判断当前点击的是第几个li的代码
2014/09/26 Javascript
JavaScript原生对象之String对象的属性和方法详解
2015/03/13 Javascript
浅析jquery unbind()方法移除元素绑定的事件
2016/05/24 Javascript
JavaScript实现窗口抖动效果
2016/10/19 Javascript
微信小程序 本地数据读取实例
2017/04/27 Javascript
vue-cli项目无法用本机IP访问的解决方法
2018/09/20 Javascript
使用jquery的cookie实现登录页记住用户名和密码的方法
2019/03/13 jQuery
vueScroll实现移动端下拉刷新、上拉加载
2019/03/22 Javascript
vue项目中极验验证的使用代码示例
2019/12/03 Javascript
vue实现鼠标移过出现下拉二级菜单功能
2019/12/12 Javascript
react-intl实现React国际化多语言的方法
2020/09/27 Javascript
[08:07]DOTA2每周TOP10 精彩击杀集锦vol.8
2014/06/25 DOTA
python利用elaphe制作二维条形码实现代码
2012/05/25 Python
Python比较两个图片相似度的方法
2015/03/13 Python
Python中random模块用法实例分析
2015/05/19 Python
Django使用httpresponse返回用户头像实例代码
2018/01/26 Python
tensorflow 中对数组元素的操作方法
2018/07/27 Python
Python实现的统计文章单词次数功能示例
2019/07/08 Python
Django 迁移、操作数据库的方法
2019/08/02 Python
django下创建多个app并设置urls方法
2020/08/02 Python
Django实现随机图形验证码的示例
2020/10/15 Python
Python爬虫中Selenium实现文件上传
2020/12/04 Python
matplotlib之多边形选区(PolygonSelector)的使用
2021/02/24 Python
pytorch Dataset,DataLoader产生自定义的训练数据案例
2021/03/03 Python
Stuarts London美国/加拿大:世界领先的独立男装零售商之一
2019/03/18 全球购物
教学质量评估实施方案
2014/03/17 职场文书
《得道多助,失道寡助》教学反思
2014/04/19 职场文书
2014各大专业毕业生自我评价
2014/09/17 职场文书
2014市府办领导班子“四风问题”对照检查材料思想汇报
2014/09/24 职场文书
Vue3 Composition API的使用简介
2021/03/29 Vue.js
Nginx源码编译安装过程记录
2021/11/17 Servers