python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python的动态重新封装的教程
Apr 11 Python
python提取页面内url列表的方法
May 25 Python
十条建议帮你提高Python编程效率
Feb 16 Python
一个基于flask的web应用诞生 用户注册功能开发(5)
Apr 11 Python
pycharm 将django中多个app放到同个文件夹apps的处理方法
May 30 Python
详解python中init方法和随机数方法
Mar 13 Python
HTML的form表单和django的form表单
Jul 25 Python
Python八皇后问题解答过程详解
Jul 29 Python
pandas如何处理缺失值
Jul 31 Python
python 输出列表元素实例(以空格/逗号为分隔符)
Dec 25 Python
python中的对数log函数表示及用法
Dec 09 Python
4种方法python批量修改替换列表中元素
Apr 07 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
解析PHP中的unset究竟会不会释放内存
2013/07/18 PHP
解决file_get_contents无法请求https连接的方法
2013/12/17 PHP
PHP 登录完成后如何跳转上一访问页面
2014/01/14 PHP
php实现的双向队列类实例
2014/09/24 PHP
PHP面向对象之后期静态绑定功能介绍
2015/05/18 PHP
PHP编程计算文件或数组中单词出现频率的方法
2017/05/22 PHP
解决PHP curl或file_get_contents下载图片损坏或无法打开的问题
2019/10/11 PHP
JS实现打开本地文件或文件夹
2021/03/09 Javascript
关于恒等于(===)和非恒等于(!==)
2007/08/20 Javascript
js中将字符串转换成json的三种方式
2011/01/12 Javascript
纯Javascript实现Windows 8 Metro风格实现
2013/10/15 Javascript
JavaScript获取XML数据附示例截图
2014/03/05 Javascript
AngularJS控制器之间的数据共享及通信详解
2016/08/01 Javascript
ionic实现下拉刷新载入数据功能
2017/05/11 Javascript
vue router学习之动态路由和嵌套路由详解
2017/09/21 Javascript
在nginx上部署vue项目(history模式)的方法
2017/12/28 Javascript
Vue组件通信的四种方式汇总
2018/02/08 Javascript
微信小程序实现评论功能
2018/11/28 Javascript
JavaScript时间与时间戳的转换操作实例分析
2018/12/07 Javascript
JavaScript"模拟事件"的注意要点详解
2019/02/13 Javascript
[00:02]DOTA2新版本使用PA至宝后暴击展示
2014/11/19 DOTA
Python中的集合类型知识讲解
2015/08/19 Python
Python 探针的实现原理
2016/04/23 Python
Django自定义插件实现网站登录验证码功能
2017/04/19 Python
python中lambda()的用法
2017/11/16 Python
python输入错误密码用户锁定实现方法
2017/11/27 Python
Python字典数据对象拆分的简单实现方法
2017/12/05 Python
详谈python在windows中的文件路径问题
2018/04/28 Python
基于python历史天气采集的分析
2019/02/14 Python
Python字符串格式化输出代码实例
2019/11/22 Python
利用CSS3的checked伪类实现OL的隐藏显示的方法
2010/12/18 HTML / CSS
医学专业大学生职业生涯规划书
2014/10/25 职场文书
2014年化工厂工作总结
2014/11/25 职场文书
信仰纪录片观后感
2015/06/08 职场文书
英语投诉信范文
2015/07/03 职场文书
python程序的组织结构详解
2021/12/06 Python