python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python Sleep休眠函数使用简单实例
Feb 02 Python
分析Python编程时利用wxPython来支持多线程的方法
Apr 07 Python
python使用xlrd实现检索excel中某列含有指定字符串记录的方法
May 09 Python
Python打印斐波拉契数列实例
Jul 07 Python
你真的了解Python的random模块吗?
Dec 12 Python
python如何读写json数据
Mar 21 Python
Python面向对象类继承和组合实例分析
May 28 Python
python MNIST手写识别数据调用API的方法
Aug 08 Python
详解Python进阶之切片的误区与高级用法
Dec 24 Python
python中logging模块的一些简单用法的使用
Feb 22 Python
matplotlib 画动态图以及plt.ion()和plt.ioff()的使用详解
Jan 05 Python
Python中requests做接口测试的方法
May 30 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
php生成静态页面的简单示例
2014/04/17 PHP
ThinkPHP中redirect用法分析
2014/12/05 PHP
PHP Imagick完美实现图片裁切、生成缩略图、添加水印
2016/02/22 PHP
PHP模板引擎Smarty内建函数section,sectionelse用法详解
2016/04/11 PHP
PHP如何搭建百度Ueditor富文本编辑器
2018/09/21 PHP
php-fpm超时时间设置request_terminate_timeout资源问题分析
2019/09/27 PHP
JavaScript 判断浏览器类型及版本
2009/02/21 Javascript
js下利用控制器载入对应脚本
2010/07/17 Javascript
ANT 压缩(去掉空格/注释)JS文件可提高js运行速度
2013/04/15 Javascript
JS判断数组中是否有重复值得三种实用方法
2013/08/16 Javascript
JQUERY表单暂存功能插件分享
2016/02/23 Javascript
JavaScript中自带的 reduce()方法使用示例详解
2016/08/10 Javascript
Vue和Bootstrap的整合思路详解
2017/06/30 Javascript
微信小程序使用input组件实现密码框功能【附源码下载】
2017/12/11 Javascript
vue自定义树状结构图的实现方法
2020/10/18 Javascript
JavaScript中遍历的十种方法总结
2020/12/15 Javascript
收集的几个Python小技巧分享
2014/11/22 Python
python的Tqdm模块的使用
2018/01/10 Python
python散点图实例之随机漫步
2018/08/27 Python
Django之Mode的外键自关联和引用未定义的Model方法
2018/12/15 Python
关于python多重赋值的小问题
2019/04/17 Python
Python redis操作实例分析【连接、管道、发布和订阅等】
2019/05/16 Python
Python sorted排序方法如何实现
2020/03/31 Python
Jupyter安装链接aconda实现过程图解
2020/11/02 Python
IE兼容css3圆角的实现代码
2011/07/21 HTML / CSS
手机端用rem+scss做适配的详解
2017/11/15 HTML / CSS
跨域修改iframe页面内容详解
2019/10/31 HTML / CSS
Etam艾格英国官网:法国著名女装品牌
2019/04/15 全球购物
Right-on官方网站:日本知名的休闲服装品牌
2019/07/12 全球购物
求最大连续递增数字串(如"ads3sl456789DF3456ld345AA"中的"456789")
2015/09/11 面试题
大学生国庆节65周年演讲稿范文
2014/09/25 职场文书
2015年大学宣传部工作总结
2015/05/26 职场文书
常住证明范本
2015/06/23 职场文书
放飞理想主题班会
2015/08/14 职场文书
《7的乘法口诀》教学反思
2016/02/18 职场文书
求职信:求职应该注意的问题
2019/04/24 职场文书