Python爬虫基础之爬虫的分类知识总结


Posted in Python onMay 13, 2021

一、通用爬虫

通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

Python爬虫基础之爬虫的分类知识总结

第一步

搜索引擎去成千上万个网站抓取数据。

第二步

搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的HTML是完全—样的。

第三步

搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理:中文分词,消除噪音,索引处理。。。
搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。展示的时候会进行排名。

二、搜索引擎的局限性

  • 搜索引擎抓取的是整个网页,不是具体详细的信息。
  • 搜索引擎无法提供针对具体某个客户需求的搜索结果。

聚焦爬虫

针对通用爬虫的这些情况,聚焦爬虫技术得以广泛使用。聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页数据。

三、Robots协议

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

Robots协议也叫爬虫协议、机器人协议等,全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,例如:

淘宝: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、请求与相应

网络通信由两部分组成:客户端请求消息服务器响应消息

Python爬虫基础之爬虫的分类知识总结

浏览器发送HTTP请求的过程:

Python爬虫基础之爬虫的分类知识总结

1.当我们在浏览器输入URL https://www.baidu.com的时候,浏览器发送一个Request请求去
获取 https://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。

2.浏览器分析Response中的HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。

3.当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

实际上我们通过学习爬虫技术爬取数据,也是向服务器请求数据,获取服务器响应数据的过程。

到此这篇关于Python爬虫基础之爬虫的分类知识总结的文章就介绍到这了,更多相关Python爬虫的分类内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 查找文件夹下所有文件 实现代码
Jul 01 Python
Python语言技巧之三元运算符使用介绍
Mar 04 Python
自动化Nginx服务器的反向代理的配置方法
Jun 28 Python
Python编码爬坑指南(必看)
Jun 10 Python
Odoo中如何生成唯一不重复的序列号详解
Feb 10 Python
利用Python写一个爬妹子的爬虫
Jun 08 Python
python 将json数据提取转化为txt的方法
Oct 26 Python
Python常用爬虫代码总结方便查询
Feb 25 Python
django框架自定义模板标签(template tag)操作示例
Jun 24 Python
在Python中os.fork()产生子进程的例子
Aug 08 Python
tensorflow 固定部分参数训练,只训练部分参数的实例
Jan 20 Python
python编程进阶之类和对象用法实例分析
Feb 21 Python
pytorch中的numel函数用法说明
May 13 #Python
pytorch损失反向传播后梯度为none的问题
如何使用Python实现一个简易的ORM模型
May 12 #Python
用python删除文件夹中的重复图片(图片去重)
May 12 #Python
Pyhton模块和包相关知识总结
python 下划线的多种应用场景总结
May 12 #Python
超级详细实用的pycharm常用快捷键
You might like
Get或Post提交值的非法数据处理
2006/10/09 PHP
php下防止单引号,双引号在接受页面转义的设置方法
2008/09/25 PHP
php设置页面超时时间解决方法
2015/09/22 PHP
PHP开发之归档格式phar文件概念与用法详解【创建,使用,解包还原提取】
2017/11/17 PHP
PHP进阶学习之垃圾回收机制详解
2019/06/18 PHP
js 函数的副作用分析
2011/08/23 Javascript
jquery toolbar与网页浮动工具条具体实现代码
2014/01/12 Javascript
jquery选择器排除某个DOM元素的方法(实例演示)
2014/04/25 Javascript
JavaScript数据类型之基本类型和引用类型的值
2015/04/01 Javascript
jQuery实现的导航动画效果(附demo源码)
2016/04/01 Javascript
JS实现的验证身份证及获取地区功能示例
2017/01/16 Javascript
微信小程序 实现列表项滑动显示删除按钮的功能
2017/04/13 Javascript
vue+webpack实现异步组件加载的方法
2018/02/03 Javascript
JavaScript中工厂函数与构造函数示例详解
2019/05/06 Javascript
详解Angular cli配置过程记录
2019/11/07 Javascript
分享JS表单验证源码(带错误提示及密码等级)
2020/01/05 Javascript
详解基于element的区间选择组件校验(交易金额)
2021/01/07 Javascript
一个基于flask的web应用诞生 使用模板引擎和表单插件(2)
2017/04/11 Python
python实现unicode转中文及转换默认编码的方法
2017/04/29 Python
Python判断变量是否为Json格式的字符串示例
2017/05/03 Python
Flask和Django框架中自定义模型类的表名、父类相关问题分析
2018/07/19 Python
基于tensorflow加载部分层的方法
2018/07/26 Python
python数据处理 根据颜色对图片进行分类的方法
2018/12/08 Python
使用python进行拆分大文件的方法
2018/12/10 Python
python调用opencv实现猫脸检测功能
2019/01/15 Python
python感知机实现代码
2019/01/18 Python
python openCV实现摄像头获取人脸图片
2020/08/20 Python
html5 input属性使用示例
2013/06/28 HTML / CSS
HTML5中的拖放实现详解
2017/08/23 HTML / CSS
PUMA官方商城:世界领先的运动品牌之一
2016/11/16 全球购物
实习计划书范文
2015/01/16 职场文书
夫妻吵架保证书
2015/05/08 职场文书
红白喜事主持词
2015/07/06 职场文书
施工现场安全管理制度
2015/08/05 职场文书
药房管理制度范本
2015/08/06 职场文书
python生成可执行exe控制Microsip自动填写号码并拨打功能
2021/06/21 Python