python爬虫 urllib模块反爬虫机制UA详解


Posted in Python onAugust 20, 2019

方法: 使用urlencode函数

urllib.request.urlopen()

import urllib.request
import urllib.parse
url = 'https://www.sogou.com/web?'
#将get请求中url携带的参数封装至字典中
param = {
  'query':'周杰伦'
}
#对url中的非ascii进行编码
param = urllib.parse.urlencode(param)
#将编码后的数据值拼接回url中
url += param 
response = urllib.request.urlopen(url=url)
data = response.read()
with open('./周杰伦1.html','wb') as fp:
  fp.write(data)
print('写入文件完毕')

开发者工具浏览器按F12或者右键按检查 ,有个抓包工具network,刷新页面,可以看到网页资源,可以看到请求头信息,UA

在抓包工具点击任意请求,可以看到所有请求信息,向应信息,

主要用到headers,response,response headers存放响应头信息,request headers 存放请求信息

python爬虫 urllib模块反爬虫机制UA详解

python爬虫 urllib模块反爬虫机制UA详解

反爬出机制:网站会检查请求的UA,如果发现UA是爬虫程序,会拒绝提供网站页面数据。

如果网站检查发现请求UA是基于某一款浏览器标识(浏览器发起的请求),网站会认为请求是正常请求,会把页面数据响应信息给客户端

User-Agent(UA):请求载体的身份标识

反反爬虫机制:

伪造爬虫程序的请求的UA,把爬虫程序的请求UA伪造成谷歌标识,火狐标识

通过自定义请求对象,用于伪装爬虫程序请求的身份。

User-Agent参数,简称为UA,该参数的作用是用于表明本次请求载体的身份标识。如果我们通过浏览器发起的请求,则该请求的载体为当前浏览器,则UA参数的值表明的是当前浏览器的身份标识表示的一串数据。

如果我们使用爬虫程序发起的一个请求,则该请求的载体为爬虫程序,那么该请求的UA为爬虫程序的身份标识表示的一串数据。

有些网站会通过辨别请求的UA来判别该请求的载体是否为爬虫程序,如果为爬虫程序,则不会给该请求返回响应,那么我们的爬虫程序则也无法通过请求爬取到该网站中的数据值,这也是反爬虫的一种初级技术手段。那么为了防止该问题的出现,则我们可以给爬虫程序的UA进行伪装,伪装成某款浏览器的身份标识。

上述案例中,我们是通过request模块中的urlopen发起的请求,该请求对象为urllib中内置的默认请求对象,我们无法对其进行UA进行更改操作。urllib还为我们提供了一种自定义请求对象的方式,我们可以通过自定义请求对象的方式,给该请求对象中的UA进行伪装(更改)操作。

自定义请求头信息字典可以添加谷歌浏览器的UA标识,自定义请求对象来伪装成谷歌UA

1.封装自定义的请求头信息的字典,

2.注意:在headers字典中可以封装任意的请求头信息

3.将浏览器的UA数据获取,封装到一个字典中。该UA值可以通过抓包工具或者浏览器自带的开发者工具中获取某请求,
从中获取UA的值

import urllib.request
import urllib.parse
url = 'https://www.sogou.com/web?query='
# url的特性:url不可以存在非ASCII编码字符数据
word = urllib.parse.quote("周杰伦")
# 将编码后的数据值拼接回url中
url = url+word # 有效url
# 发请求之前对请求的UA进行伪造,伪造完再对请求url发起请求
# UA伪造
# 1 子制定一个请求对象,headers是请求头信息,字典形式
# 封装自定义的请求头信息的字典,
# 注意:在headers字典中可以封装任意的请求头信息
headers = {
  # 存储任意的请求头信息
  'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
}
# 该请求对象的UA进行了成功的伪装
request = urllib.request.Request(url=url, headers=headers)
# 2.针对自定义请求对象发起请求
response = urllib.request.urlopen(request)
# 3.获取响应对象中的页面数据:read函数可以获取响应对象中存储的页面数据(byte类型的数据值)
page_text = response.read()
# 4.持久化存储:将爬取的页面数据写入文件进行保存
with open("周杰伦.html","wb") as f:
  f.write(page_text)
print("写入数据成功")

这样就可以突破网站的反爬机制

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python程序语言快速上手教程
Jul 18 Python
Python模拟登录12306的方法
Dec 30 Python
python实现Adapter模式实例代码
Feb 09 Python
Python DataFrame.groupby()聚合函数,分组级运算
Sep 18 Python
Python 多线程其他属性以及继承Thread类详解
Aug 28 Python
python retrying模块的使用方法详解
Sep 25 Python
Python搭建代理IP池实现接口设置与整体调度
Oct 27 Python
Python代码生成视频的缩略图的实例讲解
Dec 22 Python
解决python中显示图片的plt.imshow plt.show()内存泄漏问题
Apr 24 Python
Python爬虫爬取微信朋友圈
Aug 06 Python
Python操作CSV格式文件的方法大全
Jul 15 Python
Python实现Excel文件的合并(以新冠疫情数据为例)
Mar 20 Python
Pytorch 抽取vgg各层并进行定制化处理的方法
Aug 20 #Python
python实现抠图给证件照换背景源码
Aug 20 #Python
python爬虫 基于requests模块发起ajax的get请求实现解析
Aug 20 #Python
pytorch 在sequential中使用view来reshape的例子
Aug 20 #Python
pytorch在fintune时将sequential中的层输出方法,以vgg为例
Aug 20 #Python
python实现证件照换底功能
Aug 20 #Python
pytorch多进程加速及代码优化方法
Aug 19 #Python
You might like
JSON字符串传到后台PHP处理问题的解决方法
2016/06/05 PHP
解析PHP之提取多维数组指定列的方法
2017/01/03 PHP
PHP回调函数概念与用法实例分析
2017/11/03 PHP
PHP流Streams、包装器wrapper概念与用法实例详解
2017/11/17 PHP
laravel 模型查询按照whereIn排序的示例
2019/10/16 PHP
JavaScript中Math对象方法使用概述
2014/01/02 Javascript
深入理解node exports和module.exports区别
2016/06/01 Javascript
vue插件tab选项卡使用小结
2016/10/27 Javascript
javascript跨域请求包装函数与用法示例
2016/11/03 Javascript
JS实现微信里判断页面是否被分享成功的方法
2017/06/06 Javascript
vue路由拦截及页面跳转的设置方法
2018/05/24 Javascript
基于vue2.0的活动倒计时组件countdown(附源码下载)
2018/10/09 Javascript
在js代码拼接dom对象到页面上的模板总结
2018/10/21 Javascript
JavaScript页面加载事件实例讲解
2019/09/01 Javascript
vue.js实现h5机器人聊天(测试版)
2020/07/16 Javascript
js实现验证码功能
2020/07/24 Javascript
vue 中的动态传参和query传参操作
2020/11/09 Javascript
vue 数据遍历筛选 过滤 排序的应用操作
2020/11/17 Javascript
[04:16]DOTA2英雄梦之声_第09期_斧王
2014/06/21 DOTA
[01:23:45]DOTA2-DPC中国联赛 正赛 CDEC vs Dragon BO3 第一场 1月22日
2021/03/11 DOTA
python实现一次创建多级目录的方法
2015/05/15 Python
python版本的读写锁操作方法
2016/04/25 Python
python编写弹球游戏的实现代码
2018/03/12 Python
python面向对象 反射原理解析
2019/08/12 Python
Python调用graphviz绘制结构化图形网络示例
2019/11/22 Python
在Python中利用pickle保存变量的实例
2019/12/30 Python
Python实现电视里的5毛特效实例代码详解
2020/05/15 Python
HTML5 Canvas绘制文本及图片的基础教程
2016/03/14 HTML / CSS
Love, Bonito国际官网:新加坡女装品牌
2021/03/13 全球购物
UNIX文件系统分类
2014/11/11 面试题
中医专业应届生求职信
2013/11/17 职场文书
大学生就业自荐书
2014/06/16 职场文书
领导党的群众路线教育实践活动个人对照检查材料
2014/09/23 职场文书
python内置进制转换函数的操作
2021/06/02 Python
Win11安装受阻怎么办? Windows11安装问题与解决方案汇总
2021/11/21 数码科技
Python Matplotlib绘制动画的代码详解
2022/05/30 Python