python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 字典dict使用介绍
Nov 30 Python
python排序方法实例分析
Apr 30 Python
Python判断字符串与大小写转换
Jun 08 Python
Python中利用Scipy包的SIFT方法进行图片识别的实例教程
Jun 03 Python
Python中装饰器学习总结
Feb 10 Python
Python多线程原理与用法详解
Aug 20 Python
Empty test suite.(PyCharm程序运行错误的解决方法)
Nov 30 Python
python argparser的具体使用
Nov 10 Python
Python 改变数组类型为uint8的实现
Apr 09 Python
Python MOCK SERVER moco模拟接口测试过程解析
Apr 13 Python
Python爬取阿拉丁统计信息过程图解
May 12 Python
Python 执行矩阵与线性代数运算
Aug 01 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
蝙蝠侠:侠影之谜
2020/03/04 欧美动漫
php 无限极分类
2008/03/27 PHP
教你如何解密 “ PHP 神盾解密工具 ”
2014/06/20 PHP
php之static静态属性与静态方法实例分析
2015/07/30 PHP
PHP实现搜索地理位置及计算两点地理位置间距离的实例
2016/01/08 PHP
浅谈PHP检查数组中是否存在某个值 in_array 函数
2016/06/13 PHP
PHP合并数组函数array_merge用法分析
2017/02/17 PHP
PHP中常用的魔术方法
2017/04/28 PHP
JS动态获取当前时间,并写到特定的区域
2013/05/03 Javascript
禁用键盘上的(全局)指定键兼容iE、Chrome、火狐
2013/05/14 Javascript
js和jquery设置disabled属性为true使按钮失效
2014/08/07 Javascript
js实现在网页上简单显示时间的方法
2015/03/02 Javascript
jquery实现仿Flash的横向滑动菜单效果代码
2015/09/17 Javascript
有关Promises异步问题详解
2015/11/13 Javascript
js和jquery分别验证单选框、复选框、下拉框
2015/12/17 Javascript
jQuery 跨域访问解决原理案例详解
2016/07/09 Javascript
基于NodeJS+MongoDB+AngularJS+Bootstrap开发书店案例分析
2017/01/12 NodeJs
微信小程序图片选择区域裁剪实现方法
2017/12/02 Javascript
使用socket.io实现简单聊天室案例
2018/01/02 Javascript
实战node静态文件服务器的示例代码
2018/03/08 Javascript
Angular使用操作事件指令ng-click传多个参数示例
2018/03/27 Javascript
vue组件中的样式属性scoped实例详解
2018/10/30 Javascript
小程序按钮避免多次调用接口和点击方案实现(不用showLoading)
2020/04/15 Javascript
浅谈python for循环的巧妙运用(迭代、列表生成式)
2017/09/26 Python
python后端接收前端回传的文件方法
2019/01/02 Python
python使用yield压平嵌套字典的超简单方法
2019/11/02 Python
详细分析Python可变对象和不可变对象
2020/07/09 Python
python爬取招聘要求等信息实例
2020/11/20 Python
Canvas与图片压缩的示例代码
2017/11/28 HTML / CSS
SOA面试题:如何在SOA中实现松耦合
2013/07/21 面试题
考试没考好检讨书
2014/01/31 职场文书
策划总监岗位职责
2014/02/16 职场文书
电脑售后服务承诺书
2014/03/27 职场文书
2014年保管员工作总结
2014/11/18 职场文书
督导岗位职责范本
2015/04/10 职场文书
十大最帅动漫男主 碓冰拓海上榜,第一是《灌篮高手》男主角
2022/03/18 日漫