Python爬虫基础之爬虫的分类知识总结


Posted in Python onMay 13, 2021

一、通用爬虫

通用网络爬虫是搜索引擎抓取系统(Baidu、Google、Sogou等)的一个重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。为搜索引擎提供搜索支持。

Python爬虫基础之爬虫的分类知识总结

第一步

搜索引擎去成千上万个网站抓取数据。

第二步

搜索引擎通过爬虫爬取到的网页,将数据存入原始页面数据库(也就是文档库)。其中的页面数据与用户浏览器得到的HTML是完全—样的。

第三步

搜索引擎将爬虫抓取回来的页面,进行各种步骤的预处理:中文分词,消除噪音,索引处理。。。
搜索引擎在对信息进行组织和处理后,为用户提供关键字检索服务,将用户检索相关的信息展示给用户。展示的时候会进行排名。

二、搜索引擎的局限性

  • 搜索引擎抓取的是整个网页,不是具体详细的信息。
  • 搜索引擎无法提供针对具体某个客户需求的搜索结果。

聚焦爬虫

针对通用爬虫的这些情况,聚焦爬虫技术得以广泛使用。聚焦爬虫,是"面向特定主题需求"的一种网络爬虫程序,它与通用搜索引擎爬虫的区别在于:聚焦爬虫在实施网页抓取时会对内容进行处理筛选,尽量保证只抓取与需求相关的网页数据。

三、Robots协议

robots是网站跟爬虫间的协议,用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。——百度百科

Robots协议也叫爬虫协议、机器人协议等,全称是“网络爬虫排除标准”(Robots ExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,例如:

淘宝: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、请求与相应

网络通信由两部分组成:客户端请求消息服务器响应消息

Python爬虫基础之爬虫的分类知识总结

浏览器发送HTTP请求的过程:

Python爬虫基础之爬虫的分类知识总结

1.当我们在浏览器输入URL https://www.baidu.com的时候,浏览器发送一个Request请求去
获取 https://www.baidu.com 的html文件,服务器把Response文件对象发送回给浏览器。

2.浏览器分析Response中的HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。浏览器会自动再次发送Request去获取图片,CSS文件,或者JS文件。

3.当所有的文件都下载成功后,网页会根据HTML语法结构,完整的显示出来了。

实际上我们通过学习爬虫技术爬取数据,也是向服务器请求数据,获取服务器响应数据的过程。

到此这篇关于Python爬虫基础之爬虫的分类知识总结的文章就介绍到这了,更多相关Python爬虫的分类内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python中的列表生成式与生成器学习教程
Mar 13 Python
python递归删除指定目录及其所有内容的方法
Jan 13 Python
python 根据pid杀死相应进程的方法
Jan 16 Python
django 多数据库配置教程
May 30 Python
Python实现繁?转为简体的方法示例
Dec 18 Python
Python 从列表中取值和取索引的方法
Dec 25 Python
Python实现Linux监控的方法
May 16 Python
深入了解Python枚举类型的相关知识
Jul 09 Python
详解用Python调用百度地图正/逆地理编码API
Jul 02 Python
opencv 图像滤波(均值,方框,高斯,中值)
Jul 08 Python
Python中for后接else的语法使用
May 18 Python
Python趣味实战之手把手教你实现举牌小人生成器
Jun 07 Python
pytorch中的numel函数用法说明
May 13 #Python
pytorch损失反向传播后梯度为none的问题
如何使用Python实现一个简易的ORM模型
May 12 #Python
用python删除文件夹中的重复图片(图片去重)
May 12 #Python
Pyhton模块和包相关知识总结
python 下划线的多种应用场景总结
May 12 #Python
超级详细实用的pycharm常用快捷键
You might like
PHP获取音频文件的相关信息
2015/06/22 PHP
PHP cookie,session的使用与用户自动登录功能实现方法分析
2019/06/05 PHP
一个cssQuery对象 javascript脚本实现代码
2009/07/21 Javascript
jquery自动完成插件(autocomplete)应用之PHP版
2009/12/15 Javascript
jQuery的初始化与对象构建之浅析
2011/04/12 Javascript
JS执行删除前的判断代码
2014/02/18 Javascript
jquery带有索引按钮且自动轮播切换特效代码分享
2015/09/15 Javascript
简单对比分析JavaScript中的apply,call与this的使用
2015/12/04 Javascript
jQuery选择器及jquery案例详解(必看)
2016/05/20 Javascript
基于Bootstrap 3 JQuery及RegExp的表单验证功能
2017/02/16 Javascript
JavaScript实现审核流程状态的动态显示进度条
2017/03/15 Javascript
Webpack实现按需打包Lodash的几种方法详解
2017/05/08 Javascript
jquery.uploadifive插件怎么解决上传限制图片或文件大小问题
2017/05/08 jQuery
基于JS递归函数细化认识及实用实例(推荐)
2017/08/07 Javascript
深入浅出webpack之externals的使用
2017/12/04 Javascript
详解webpack之图片引入-增强的file-loader:url-loader
2018/10/08 Javascript
js实现左右轮播图
2020/01/09 Javascript
vue npm install 安装某个指定的版本操作
2020/08/11 Javascript
手把手教你实现 Promise的使用方法
2020/09/02 Javascript
[51:52]Liquid vs Secret 2019国际邀请赛淘汰赛 败者组 BO3 第二场 8.24
2019/09/10 DOTA
python 读取修改pcap包的例子
2019/07/23 Python
python matplotlib库绘制条形图练习题
2019/08/10 Python
简单分析python的类变量、实例变量
2019/08/23 Python
Python字符串中添加、插入特定字符的方法
2019/09/10 Python
Python类的动态绑定实现原理
2020/03/21 Python
Pythonic版二分查找实现过程原理解析
2020/08/11 Python
初三政治教学反思
2014/01/30 职场文书
食品安全处置方案
2014/06/14 职场文书
2014领导班子四风问题对照检查材料思想汇报
2014/09/21 职场文书
护士年终个人总结
2015/02/13 职场文书
党员个人年度总结
2015/02/14 职场文书
2015年环保局工作总结
2015/05/22 职场文书
2015大学迎新晚会主持词
2015/07/16 职场文书
七年级作文之关于奶奶
2019/10/29 职场文书
阿里云Nginx配置https实现域名访问项目(图文教程)
2021/03/31 Servers
基于PyQT5制作一个桌面摸鱼工具
2022/02/15 Python