python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
wxpython中利用线程防止假死的实现方法
Aug 11 Python
Python中if __name__ == "__main__"详细解释
Oct 21 Python
Python中利用原始套接字进行网络编程的示例
May 04 Python
Python增量循环删除MySQL表数据的方法
Sep 23 Python
Python正则简单实例分析
Mar 21 Python
Python判断变量是否为Json格式的字符串示例
May 03 Python
Java实现的执行python脚本工具类示例【使用jython.jar】
Mar 29 Python
Python-ElasticSearch搜索查询的讲解
Feb 25 Python
django认证系统 Authentication使用详解
Jul 22 Python
python中的函数递归和迭代原理解析
Nov 14 Python
如何理解python中数字列表
May 29 Python
pytorch加载语音类自定义数据集的方法教程
Nov 10 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
农民和部队如何穿矿
2020/03/04 星际争霸
ZF等常用php框架中存在的问题
2008/01/10 PHP
将word转化为swf 如同百度文库般阅读实现思路及代码
2013/08/09 PHP
php实现的简单美国商品税计算函数
2015/07/13 PHP
Yii rules常用规则示例
2016/03/15 PHP
yii框架无限极分类的实现方法
2017/04/08 PHP
php empty 函数判断结果为空但实际值却为非空的原因解析
2018/05/28 PHP
PHP创建XML的方法示例【基于DOMDocument类及SimpleXMLElement类】
2019/09/10 PHP
JavaScript作用域链使用介绍
2013/08/29 Javascript
JS中引用百度地图并将百度地图的logo和信息去掉
2013/09/29 Javascript
js replace替换所有匹配的字符串
2014/02/13 Javascript
实例详解ECMAScript5中新增的Array方法
2016/04/05 Javascript
【经验总结】编写JavaScript代码时应遵循的14条规律
2016/06/20 Javascript
再次谈论Javascript中的this
2016/06/23 Javascript
又一款js时钟!transform实现时钟效果
2016/08/15 Javascript
微信小程序基于本地缓存实现点赞功能的方法
2017/12/18 Javascript
React+Webpack快速上手指南(小结)
2018/08/15 Javascript
[jQuery] 事件和动画详解
2019/03/05 jQuery
JavaScript设计模式---单例模式详解【四种基本形式】
2020/05/16 Javascript
Python实现读取邮箱中的邮件功能示例【含文本及附件】
2017/08/05 Python
python实现外卖信息管理系统
2018/01/11 Python
python批量创建指定名称的文件夹
2019/03/21 Python
10分钟用python搭建一个超好用的CMDB系统
2019/07/17 Python
Python如何使用内置库matplotlib绘制折线图
2020/02/24 Python
IE支持HTML5的解决方法
2009/10/20 HTML / CSS
德国PC硬件网站:CASEKING
2016/10/20 全球购物
夏尔巴人登珠峰品牌:Sherpa Adventure Gear
2018/02/08 全球购物
美国办公用品折扣网站:Shoplet.com
2019/11/24 全球购物
华为的Java面试题
2014/03/07 面试题
研修第一天随笔感言
2014/02/15 职场文书
商业企业管理专业求职信
2014/07/10 职场文书
2014镇副书记群众路线专题民主生活会思想汇报
2014/09/23 职场文书
MySQL性能压力基准测试工具sysbench的使用简介
2021/04/21 MySQL
Python实战之OpenCV实现猫脸检测
2021/06/26 Python
CSS3实现指纹特效代码
2022/03/17 HTML / CSS
解决ubuntu安装软件时,status-code=409报错的问题
2022/12/24 Servers