Python3网络爬虫之使用User Agent和代理IP隐藏身份


Posted in Python onNovember 23, 2017

本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下:

  1. 运行平台:Windows
  2. Python版本:Python3.x
  3. IDE:Sublime text3

一、为何要设置User Agent

有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。

User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中,如果不设置User Agent,程序将使用默认的参数,那么这个User Agent就会有Python的字样,如果服务器检查User Agent,那么没有设置User Agent的Python程序将无法正常访问网站。

Python允许我们修改这个User Agent来模拟浏览器访问,它的强大毋庸置疑。

二、常见的User Agent

1.Android

  1. Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19
  2. Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30
  3. Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

2.Firefox

  1. Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0
  2. Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0

3.Google Chrome

  1. Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36
  2. Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19

4.iOS

  1. Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3
  2. Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/3A101a Safari/419.3

上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent,直接copy就能用。

三、设置User Agent的方法

先看下urllib.request.Request()

Python3网络爬虫之使用User Agent和代理IP隐藏身份

从上图可以看出,在创建Request对象的时候,可以传入headers参数。 

因此,想要设置User Agent,有两种方法:

1.在创建Request对象的时候,填入headers参数(包含User Agent信息),这个Headers参数要求为字典;

2.在创建Request对象的时候不添加headers参数,在创建完成之后,使用add_header()的方法,添加headers。

方法一:

创建文件urllib_test09.py,使用上面提到的Android的第一个User Agent,在创建Request对象的时候传入headers参数,编写代码如下:

# -*- coding: UTF-8 -*-
from urllib import request

if __name__ == "__main__":
  #以CSDN为例,CSDN不更改User Agent是无法访问的
  url = 'http://www.csdn.net/'
  head = {}
  #写入User Agent信息
  head['User-Agent'] = 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19'
 #创建Request对象
  req = request.Request(url, headers=head)
  #传入创建好的Request对象
  response = request.urlopen(req)
  #读取响应信息并解码
  html = response.read().decode('utf-8')
  #打印信息
  print(html)

运行结果如下:

Python3网络爬虫之使用User Agent和代理IP隐藏身份

方法二:

创建文件urllib_test10.py,使用上面提到的Android的第一个User Agent,在创建Request对象时不传入headers参数,创建之后使用add_header()方法,添加headers,编写代码如下:

# -*- coding: UTF-8 -*-
from urllib import request

if __name__ == "__main__":
  #以CSDN为例,CSDN不更改User Agent是无法访问的
  url = 'http://www.csdn.net/'
  #创建Request对象
  req = request.Request(url)
  #传入headers
  req.add_header('User-Agent', 'Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19')
  #传入创建好的Request对象
  response = request.urlopen(req)
  #读取响应信息并解码
  html = response.read().decode('utf-8')
  #打印信息
  print(html)

运行结果和上一个方法是一样的。

四、IP代理的使用

1.为何使用IP代理

User Agent已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。

2.一般步骤说明

一个很简单的解决办法就是设置延时,但是这显然不符合爬虫快速爬取信息的目的,所以另一种更好的方法就是使用IP代理。使用代理的步骤:

 (1)调用urlib.request.ProxyHandler(),proxies参数为一个字典。

Python3网络爬虫之使用User Agent和代理IP隐藏身份

(2)创建Opener(类似于urlopen,这个代开方式是我们自己定制的)

Python3网络爬虫之使用User Agent和代理IP隐藏身份

(3)安装Opener

 Python3网络爬虫之使用User Agent和代理IP隐藏身份

使用install_opener方法之后,会将程序默认的urlopen方法替换掉。也就是说,如果使用install_opener之后,在该文件中,再次调用urlopen会使用自己创建好的opener。如果不想替换掉,只是想临时使用一下,可以使用opener.open(url),这样就不会对程序默认的urlopen有影响。

3.代理IP选取

在写代码之前,先在代理IP网站选好一个IP地址,推荐西刺代理IP。

URL:http://www.xicidaili.com/

注意:当然也可以写个正则表达式从网站直接爬取IP,但是要记住不要太频繁爬取,加个延时什么的,太频繁给服务器带来压力了,服务器会直接把你block,不让你访问的,我就被封了两天。

从西刺网站选出信号好的IP,我的选择如下:(106.46.136.112:808)

Python3网络爬虫之使用User Agent和代理IP隐藏身份

编写代码访问http://www.whatismyip.com.tw/,该网站是测试自己IP为多少的网址,服务器会返回访问者的IP。

4.代码实例

创建文件urllib_test11.py,编写代码如下:

# -*- coding: UTF-8 -*-
from urllib import request

if __name__ == "__main__":
  #访问网址
  url = 'http://www.whatismyip.com.tw/'
  #这是代理IP
  proxy = {'http':'106.46.136.112:808'}
  #创建ProxyHandler
  proxy_support = request.ProxyHandler(proxy)
  #创建Opener
  opener = request.build_opener(proxy_support)
  #添加User Angent
  opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36')]
  #安装OPener
  request.install_opener(opener)
  #使用自己安装好的Opener
  response = request.urlopen(url)
  #读取相应信息并解码
  html = response.read().decode("utf-8")
  #打印信息
  print(html)

运行结果如下:

Python3网络爬虫之使用User Agent和代理IP隐藏身份

从上图可以看出,访问的IP已经伪装成了106.46.136.112。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python threading多线程编程实例
Sep 18 Python
菜鸟使用python实现正则检测密码合法性
Jan 05 Python
各种Python库安装包下载地址与安装过程详细介绍(Windows版)
Nov 02 Python
Python爬虫之模拟知乎登录的方法教程
May 25 Python
Python聊天室程序(基础版)
Apr 01 Python
python中virtualenvwrapper安装与使用
May 20 Python
Python 确定多项式拟合/回归的阶数实例
Dec 29 Python
解决django同步数据库的时候app models表没有成功创建的问题
Aug 09 Python
Python HTMLTestRunner可视化报告实现过程解析
Apr 10 Python
详解Python3 定义一个跨越多行的字符串的多种方法
Sep 06 Python
Python使用华为API为图像设置多个锚点标签
Apr 12 Python
python开发人人对战的五子棋小游戏
May 02 Python
python网络爬虫之如何伪装逃过反爬虫程序的方法
Nov 23 #Python
Python实现的基数排序算法原理与用法实例分析
Nov 23 #Python
Scrapy抓取京东商品、豆瓣电影及代码分享
Nov 23 #Python
python简单图片操作:打开\显示\保存图像方法介绍
Nov 23 #Python
python分析作业提交情况
Nov 22 #Python
Python分析学校四六级过关情况
Nov 22 #Python
linux环境下的python安装过程图解(含setuptools)
Nov 22 #Python
You might like
探讨:web上存漏洞及原理分析、防范方法
2013/06/29 PHP
PHP 表单提交及处理表单数据详解及实例
2016/12/27 PHP
php array_reverse 以相反的顺序返回数组实例代码
2017/04/11 PHP
Laravel 5.4.36中session没有保存成功问题的解决
2018/02/19 PHP
JavaScript 三种不同位置代码的写法
2009/10/25 Javascript
jquery ajaxSubmit 异步提交的简单实现
2014/02/28 Javascript
JavaScript中的类数组对象介绍
2014/12/30 Javascript
jQuery表格插件datatables用法详解
2020/11/23 Javascript
深入解析JavaScript中的立即执行函数
2016/05/21 Javascript
BootStrap初学者对弹出框和进度条的使用感觉
2016/06/27 Javascript
使用requirejs模块化开发多页面一个入口js的使用方式
2017/06/14 Javascript
vue实现消息的无缝滚动效果的示例代码
2017/12/05 Javascript
Vue 项目代理设置的优化
2018/04/17 Javascript
当vue路由变化时,改变导航栏的样式方法
2018/08/22 Javascript
CentOS7中源码编译安装NodeJS的完整步骤
2018/10/13 NodeJs
wx-charts 微信小程序图表插件的具体使用
2019/08/18 Javascript
vue视频播放插件vue-video-player的具体使用方法
2019/11/08 Javascript
[04:59]DOTA2-DPC中国联赛 正赛 Ehome vs iG 选手采访
2021/03/11 DOTA
python之模拟鼠标键盘动作具体实现
2013/12/30 Python
python有证书的加密解密实现方法
2014/11/19 Python
R语言 vs Python对比:数据分析哪家强?
2017/11/17 Python
Python并发编程协程(Coroutine)之Gevent详解
2017/12/27 Python
Python实现合并excel表格的方法分析
2019/04/13 Python
python从list列表中选出一个数和其对应的坐标方法
2019/07/20 Python
python基于celery实现异步任务周期任务定时任务
2019/12/30 Python
小程序瀑布流解决左右两边高度差距过大的问题
2019/02/20 HTML / CSS
为什么要优先使用同步代码块而不是同步方法?
2013/01/30 面试题
一套Delphi的笔试题一
2016/02/14 面试题
30岁生日感言
2014/01/25 职场文书
大学生毕业自我鉴定范文
2014/02/03 职场文书
医院见习报告范文
2014/11/03 职场文书
大学生操行评语大全
2014/12/31 职场文书
平遥古城导游词
2015/02/03 职场文书
2015领导干部廉洁自律工作总结
2015/07/23 职场文书
MySQL REVOKE实现删除用户权限
2021/06/18 MySQL
Django Paginator分页器的使用示例
2021/06/23 Python