python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Django中实现点击图片链接强制直接下载的方法
May 14 Python
Python使用xlwt模块操作Excel的方法详解
Mar 27 Python
基于Python列表解析(列表推导式)
Jun 23 Python
Python对ElasticSearch获取数据及操作
Apr 24 Python
使用python将多个excel文件合并到同一个文件的方法
Jul 09 Python
Django框架自定义模型管理器与元选项用法分析
Jul 22 Python
PyTorch中Tensor的拼接与拆分的实现
Aug 18 Python
Python with标签使用方法解析
Jan 17 Python
基于python图书馆管理系统设计实例详解
Aug 05 Python
Python大批量搜索引擎图像爬虫工具详解
Nov 16 Python
PyCharm配置KBEngine快速处理代码提示冲突、配置命令问题
Apr 03 Python
Python简易开发之制作计算器
Apr 28 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
PHP中usort在值相同时改变原始位置问题的解决方法
2011/11/27 PHP
PHP+jQuery 注册模块开发详解
2014/10/14 PHP
php压缩文件夹最新版
2018/07/18 PHP
用javascript控制iframe滚动的代码
2007/04/10 Javascript
javascript 清除输入框中的数据
2009/04/13 Javascript
推荐11款jQuery开发的复选框和单选框美化插件
2011/08/02 Javascript
基于jquery的固定表头和列头的代码
2012/05/03 Javascript
js截取小数点后几位的写法
2013/11/14 Javascript
JS控制伪元素的方法汇总
2016/04/06 Javascript
AngularJs Modules详解及示例代码
2016/09/01 Javascript
Angular2学习笔记——详解NgModule模块
2016/12/02 Javascript
JS经典正则表达式笔试题汇总
2016/12/15 Javascript
bootstrap-Treeview实现级联勾选
2017/11/23 Javascript
html中通过JS获取JSON数据并加载的方法
2017/11/30 Javascript
微信小程序-form表单提交代码实例
2019/04/29 Javascript
使用eslint和githooks统一前端风格的技巧
2020/07/29 Javascript
[03:49]2016完美“圣”典风云人物:AMS专访
2016/12/06 DOTA
在Python的Flask框架中使用模版的入门教程
2015/04/20 Python
使用httplib模块来制作Python下HTTP客户端的方法
2015/06/19 Python
使用Python实现BT种子和磁力链接的相互转换
2015/11/09 Python
Swift 3.0在集合类数据结构上的一些新变化总结
2016/07/11 Python
python3.5 + PyQt5 +Eric6 实现的一个计算器代码
2017/03/11 Python
Python基于hashlib模块的文件MD5一致性加密验证示例
2018/02/10 Python
Python 通配符删除文件的实例
2018/04/24 Python
python3.X 抓取火车票信息【修正版】
2018/06/19 Python
人工神经网络算法知识点总结
2019/06/11 Python
解决Python二维数组赋值问题
2019/11/28 Python
python实现输入的数据在地图上生成热力图效果
2019/12/06 Python
使用python接受tgam的脑波数据实例
2020/04/09 Python
HTML中使用SVG与SVG预定义形状元素介绍
2013/06/28 HTML / CSS
POP文化和音乐灵感的时尚:Hot Topic
2019/06/19 全球购物
办公室文书岗位职责
2013/12/16 职场文书
《美丽的南沙群岛》教学反思
2014/04/27 职场文书
开学典礼演讲稿
2014/05/23 职场文书
2014党员干部四风问题对照检查材料思想汇报
2014/09/24 职场文书
Golang 并发编程 SingleFlight模式
2022/04/26 Golang