Python爬虫与反爬虫大战


Posted in Python onJuly 30, 2020

爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家?

重新理解爬虫中的一些概念

  • 爬虫:自动获取网站数据的程序
  • 反爬虫:使用技术手段防止爬虫程序爬取数据
  • 误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通常都是禁止某ip一段时间访问。
  • 成本:反爬虫也是需要人力和机器成本
  • 拦截:成功拦截爬虫,一般拦截率越高,误伤率也就越高

反爬虫的目的

  • 初学者写的爬虫:简单粗暴,不管对端服务器的压力,甚至会把网站爬挂掉了
  • 数据保护:很多的数据对某些公司网站来说是比较重要的不希望被别人爬取
  • 商业竞争问题:这里举个例子是关于京东和天猫,假如京东内部通过程序爬取天猫所有的商品信息,从而做对应策略这样对天猫来说就造成了非常大的竞争

爬虫与反爬虫大战

上有政策下有对策,下面整理了常见的爬虫大战策略

Python爬虫与反爬虫大战

以上就是Python爬虫与反爬虫大战的详细内容,更多关于Python爬虫与反爬虫的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python实现哈希表
Feb 07 Python
python网络编程学习笔记(七):HTML和XHTML解析(HTMLParser、BeautifulSoup)
Jun 09 Python
python的描述符(descriptor)、装饰器(property)造成的一个无限递归问题分享
Jul 09 Python
利用Python2下载单张图片与爬取网页图片实例代码
Dec 25 Python
python爬虫 使用真实浏览器打开网页的两种方法总结
Apr 21 Python
解决python中无法自动补全代码的问题
Dec 04 Python
在keras中获取某一层上的feature map实例
Jan 24 Python
Python MySQL 日期时间格式化作为参数的操作
Mar 02 Python
Python中正则表达式对单个字符,多个字符和匹配边界等使用
Jan 27 Python
详解Python常用的魔法方法
Jun 03 Python
Django rest framework如何自定义用户表
Jun 09 Python
总结python多进程multiprocessing的相关知识
Jun 29 Python
Python如何将装饰器定义为类
Jul 30 #Python
python实现mask矩阵示例(根据列表所给元素)
Jul 30 #Python
Python3爬虫发送请求的知识点实例
Jul 30 #Python
详解Python 最短匹配模式
Jul 29 #Python
Python如何给你的程序做性能测试
Jul 29 #Python
Python3爬虫中关于中文分词的详解
Jul 29 #Python
Python3爬虫中pyspider的安装步骤
Jul 29 #Python
You might like
php array_intersect比array_diff快(附详细的使用说明)
2011/07/03 PHP
PHP URL参数获取方式的四种例子
2014/02/28 PHP
PHP连接和操作MySQL数据库基础教程
2014/09/29 PHP
php实现excel中rank函数功能的方法
2015/01/20 PHP
Yii框架上传图片用法总结
2016/03/28 PHP
laravel Validator ajax返回错误信息的方法
2019/09/29 PHP
Laravel自定义 封装便捷返回Json数据格式的引用方法
2019/09/29 PHP
对YUI扩展的Gird组件 Part-1
2007/03/10 Javascript
js URL参数的拼接方法比较
2012/02/15 Javascript
fancybox modal的完美解决(右上的X)
2012/10/30 Javascript
修改file按钮的默认样式实现代码
2013/04/23 Javascript
纯JavaScript 实现flappy bird小游戏实例代码
2016/09/27 Javascript
jQuery窗口拖动功能的实现代码
2017/02/04 Javascript
JavaScript实现替换字符串中最后一个字符的方法
2017/03/07 Javascript
vue+php实现的微博留言功能示例
2019/03/16 Javascript
详解VSCode配置启动Vue项目
2019/05/14 Javascript
小程序实现多个选项卡切换
2020/06/19 Javascript
微信小程序连续签到7天积分获得功能的示例代码
2020/08/20 Javascript
[04:10]DOTA2英雄梦之声_第11期_圣堂刺客
2014/06/21 DOTA
通过python下载FTP上的文件夹的实现代码
2013/02/10 Python
python基础教程之字典操作详解
2014/03/25 Python
json跨域调用python的方法详解
2017/01/11 Python
OpenCV-Python实现轮廓检测实例分析
2018/01/05 Python
python求最大连续子数组的和
2018/07/07 Python
pytorch 数据集图片显示方法
2018/07/26 Python
英国最大的割草机购买网站:Just Lawnmowers
2019/11/02 全球购物
我的理想演讲稿
2014/04/30 职场文书
网吧消防安全责任书
2014/07/29 职场文书
学校关爱留守儿童活动方案
2014/08/27 职场文书
单位计划生育责任书
2015/05/09 职场文书
第一军规观后感
2015/06/12 职场文书
婚宴来宾致辞
2015/07/28 职场文书
pytorch finetuning 自己的图片进行训练操作
2021/06/05 Python
MySQL快速插入一亿测试数据
2021/06/23 MySQL
javascript函数式编程基础
2021/09/15 Javascript
td 内容自动换行 table表格td设置宽度后文字太多自动换行
2022/12/24 HTML / CSS