Python反爬虫技术之防止IP地址被封杀的讲解


Posted in Python onJanuary 09, 2019

在使用爬虫爬取别的网站的数据的时候,如果爬取频次过快,或者因为一些别的原因,被对方网站识别出爬虫后,自己的IP地址就面临着被封杀的风险。一旦IP被封杀,那么爬虫就再也爬取不到数据了。

那么常见的更改爬虫IP的方法有哪些呢?

1,使用动态IP拨号器服务器。

动态IP拨号服务器的IP地址是可以动态修改的。其实动态IP拨号服务器并不是什么高大上的服务器,相反,属于配置很低的一种服务器。我们之所以使用动态IP拨号服务器,不是看中了它的计算能力,而是能够实现秒换IP。

动态IP拨号服务器有一个特点,就是每次拨号都会更换一个新的IP地址。多年前家庭中的上网方式大多采用的ADSL拨号上网,也就是断开网络后再拨号一次,外网IP就会换成另一个。

通常来讲,这个IP池很大,可能有多个AB号段,IP数量基本上用不完。对于爬虫来说,这简直是大杀器,能够轻松的解决封杀IP的限制。

使用动态IP拨号服务器,需要付费购买。

2,使用Tor代理服务器。

Tor(The onion router, 洋葱路由器)是互联网上用于保护隐私最有利的工具之一。如果我们不适用Tor,网络请求就会直接发送给目标服务器。

相比之下,如果我们使用tor发送网络请求,客户端就会选择一条随机路径到服务器。这条随机路径中间会经过多个Tor节点,而且使用洋葱路由加密技术,使得任何节点都不能偷取加密数据,并且该请求的传输路径难以追踪,也查不出起点在哪。

Python反爬虫技术之防止IP地址被封杀的讲解

因此,我们可以使用tor技术改变请求的IP地址,作为一种终极的防止IP封锁的爬虫方案。

最近在学习《Python网络爬虫从入门到实践》,了解到其中的关于反爬虫的一些话题,做一下学习笔记。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python深入学习之特殊方法与多范式
Aug 31 Python
Python中下划线的使用方法
Mar 27 Python
浅谈python 四种数值类型(int,long,float,complex)
Jun 08 Python
解决Python网页爬虫之中文乱码问题
May 11 Python
详解python中的Turtle函数库
Nov 19 Python
python中下标和切片的使用方法解析
Aug 27 Python
Python实现不规则图形填充的思路
Feb 02 Python
Python如何输出警告信息
Jul 30 Python
如何在scrapy中捕获并处理各种异常
Sep 28 Python
如何编写python的daemon程序
Jan 07 Python
python中的时区问题
Jan 14 Python
python中Tkinter 窗口之输入框和文本框的实现
Apr 12 Python
Python Pywavelet 小波阈值实例
Jan 09 #Python
python利用小波分析进行特征提取的实例
Jan 09 #Python
Python 实现中值滤波、均值滤波的方法
Jan 09 #Python
对Python信号处理模块signal详解
Jan 09 #Python
使用python实现语音文件的特征提取方法
Jan 09 #Python
对python中Librosa的mfcc步骤详解
Jan 09 #Python
Python中的枚举类型示例介绍
Jan 09 #Python
You might like
php中日期加减法运算实现代码
2011/12/08 PHP
分享下页面关键字抓取components.arrow.com站点代码
2014/01/30 PHP
php基于单例模式封装mysql类完整实例
2016/10/18 PHP
php中的异常和错误浅析
2017/05/03 PHP
浅谈使用 Yii2 AssetBundle 中 $publishOptions 的正确姿势
2017/11/08 PHP
php+layui数据表格实现数据分页渲染代码
2019/10/26 PHP
TNC vs BOOM BO3 第二场2.13
2021/03/10 DOTA
使用Js让Html中特殊字符不被转义
2013/11/05 Javascript
jQuery中:first-child选择器用法实例
2014/12/31 Javascript
JavaScript 里的类数组对象
2015/04/08 Javascript
跟我学习javascript的隐式强制转换
2015/11/16 Javascript
Javascript自执行匿名函数(function() { })()的原理浅析
2016/05/15 Javascript
AngularJS 基础ng-class-even指令用法
2016/08/01 Javascript
JavaScript字符串检索字符的方法
2017/06/23 Javascript
详解Eslint 配置及规则说明
2018/09/10 Javascript
Vue 配合eiement动态路由,权限验证的方法
2018/09/26 Javascript
element-ui tooltip修改背景颜色和箭头颜色的实现
2019/12/16 Javascript
[56:00]DOTA2上海特级锦标赛主赛事日 - 4 胜者组决赛Secret VS Liquid第一局
2016/03/05 DOTA
[01:24:16]2018DOTA2亚洲邀请赛 4.6 全明星赛
2018/04/10 DOTA
python实现逆波兰计算表达式实例详解
2015/05/06 Python
每天迁移MySQL历史数据到历史库Python脚本
2018/04/13 Python
python实现网站用户名密码自动登录功能
2019/08/09 Python
Python的赋值、深拷贝与浅拷贝的区别详解
2020/02/12 Python
基于Pytorch SSD模型分析
2020/02/18 Python
通过自学python能找到工作吗
2020/06/21 Python
Python实现给PDF添加水印的方法
2021/01/25 Python
Fanatics法国官网:美国体育电商
2019/08/27 全球购物
美国宠物护理专家:Revival Animal Health
2020/01/05 全球购物
银行类自荐信
2014/02/04 职场文书
民主评议党员自我评议范文2014
2014/09/26 职场文书
2014年双拥工作总结
2014/11/21 职场文书
防溺水安全教育主题班会
2015/08/12 职场文书
优秀共产党员主要事迹材料
2015/11/05 职场文书
校运会班级霸气口号
2015/12/24 职场文书
2016教师六五普法学习心得体会
2016/01/21 职场文书
2016教师政治学习心得体会
2016/01/23 职场文书