Python反爬虫技术之防止IP地址被封杀的讲解


Posted in Python onJanuary 09, 2019

在使用爬虫爬取别的网站的数据的时候,如果爬取频次过快,或者因为一些别的原因,被对方网站识别出爬虫后,自己的IP地址就面临着被封杀的风险。一旦IP被封杀,那么爬虫就再也爬取不到数据了。

那么常见的更改爬虫IP的方法有哪些呢?

1,使用动态IP拨号器服务器。

动态IP拨号服务器的IP地址是可以动态修改的。其实动态IP拨号服务器并不是什么高大上的服务器,相反,属于配置很低的一种服务器。我们之所以使用动态IP拨号服务器,不是看中了它的计算能力,而是能够实现秒换IP。

动态IP拨号服务器有一个特点,就是每次拨号都会更换一个新的IP地址。多年前家庭中的上网方式大多采用的ADSL拨号上网,也就是断开网络后再拨号一次,外网IP就会换成另一个。

通常来讲,这个IP池很大,可能有多个AB号段,IP数量基本上用不完。对于爬虫来说,这简直是大杀器,能够轻松的解决封杀IP的限制。

使用动态IP拨号服务器,需要付费购买。

2,使用Tor代理服务器。

Tor(The onion router, 洋葱路由器)是互联网上用于保护隐私最有利的工具之一。如果我们不适用Tor,网络请求就会直接发送给目标服务器。

相比之下,如果我们使用tor发送网络请求,客户端就会选择一条随机路径到服务器。这条随机路径中间会经过多个Tor节点,而且使用洋葱路由加密技术,使得任何节点都不能偷取加密数据,并且该请求的传输路径难以追踪,也查不出起点在哪。

Python反爬虫技术之防止IP地址被封杀的讲解

因此,我们可以使用tor技术改变请求的IP地址,作为一种终极的防止IP封锁的爬虫方案。

最近在学习《Python网络爬虫从入门到实践》,了解到其中的关于反爬虫的一些话题,做一下学习笔记。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python控制台中实现进度条功能
Nov 10 Python
python 内置函数filter
Jun 01 Python
详解 Python 与文件对象共事的实例
Sep 11 Python
Flask数据库迁移简单介绍
Oct 24 Python
python多线程之事件Event的使用详解
Apr 27 Python
python Pandas 读取txt表格的实例
Apr 29 Python
Python 实现域名解析为ip的方法
Feb 14 Python
Python多叉树的构造及取出节点数据(treelib)的方法
Aug 09 Python
selenium+Chrome滑动验证码破解二(某某网站)
Dec 17 Python
python反爬虫方法的优缺点分析
Nov 25 Python
详解Python中string模块除去Str还剩下什么
Nov 30 Python
Python爬虫入门教程02之笔趣阁小说爬取
Jan 24 Python
Python Pywavelet 小波阈值实例
Jan 09 #Python
python利用小波分析进行特征提取的实例
Jan 09 #Python
Python 实现中值滤波、均值滤波的方法
Jan 09 #Python
对Python信号处理模块signal详解
Jan 09 #Python
使用python实现语音文件的特征提取方法
Jan 09 #Python
对python中Librosa的mfcc步骤详解
Jan 09 #Python
Python中的枚举类型示例介绍
Jan 09 #Python
You might like
php中PDO方式实现数据库的增删改查
2015/05/17 PHP
Laravel模型事件的实现原理详解
2018/03/14 PHP
表单提交时自动复制内容到剪贴板的js代码
2007/03/16 Javascript
获得Javascript对象属性个数的示例代码
2013/11/21 Javascript
使用js获取图片原始尺寸
2014/12/03 Javascript
js获取当前时间显示在页面上并每秒刷新
2014/12/24 Javascript
AngularJS ng-bind-html 指令详解及实例代码
2016/07/30 Javascript
jquery 抽奖小程序实现代码
2016/10/12 Javascript
详解PHP中pathinfo()函数导致的安全问题
2017/01/05 Javascript
老生常谈js中0到底是 true 还是 false
2017/03/08 Javascript
javascript中this用法实例详解
2017/04/06 Javascript
Node+Express+MongoDB实现登录注册功能实例
2017/04/23 Javascript
React进阶学习之组件的解耦之道
2017/08/07 Javascript
Nodejs中获取当前函数被调用的行数及文件名详解
2018/12/12 NodeJs
vue实现页面滚动到底部刷新
2019/08/16 Javascript
解决layer弹出层的内容页点击按钮跳转到新的页面问题
2019/09/14 Javascript
关于你不想知道的所有Python3 unicode特性
2014/11/28 Python
python模块之paramiko实例代码
2018/01/31 Python
python实现寻找最长回文子序列的方法
2018/06/02 Python
Python基于pyCUDA实现GPU加速并行计算功能入门教程
2018/06/19 Python
如何通过50行Python代码获取公众号全部文章
2019/07/12 Python
Python CSV文件模块的使用案例分析
2019/12/21 Python
Python实现捕获异常发生的文件和具体行数
2020/04/25 Python
使用Python实现批量ping操作方法
2020/05/06 Python
Python如何使用PIL Image制作GIF图片
2020/05/16 Python
Python爬虫实例——爬取美团美食数据
2020/07/15 Python
python向xls写入数据(包括合并,边框,对齐,列宽)
2021/02/02 Python
html2canvas截图空白问题的解决
2020/03/24 HTML / CSS
Evisu官方网站:日本牛仔品牌,时尚街头设计风格
2016/12/30 全球购物
CHARLES & KEITH加拿大官网:新加坡时尚品牌
2020/03/26 全球购物
关爱留守儿童倡议书
2014/04/15 职场文书
医生个人自我剖析材料
2014/10/08 职场文书
北京故宫导游词
2015/01/31 职场文书
优秀范文:《但愿人长久》教学反思3篇
2019/10/24 职场文书
2019年幼儿园家长接送责任书
2019/10/29 职场文书
python 制作一个gui界面的翻译工具
2021/05/14 Python