python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python  连接字符串(join %)
Sep 06 Python
使用Python的Supervisor进行进程监控以及自动启动
May 29 Python
Python使用dis模块把Python反编译为字节码的用法详解
Jun 14 Python
Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容
Feb 23 Python
python pandas库中DataFrame对行和列的操作实例讲解
Jun 09 Python
pytorch torch.expand和torch.repeat的区别详解
Nov 05 Python
Python利用PyExecJS库执行JS函数的案例分析
Dec 18 Python
Python模块的制作方法实例分析
Dec 21 Python
基于Python3.6中的OpenCV实现图片色彩空间的转换
Feb 03 Python
Django的ListView超详细用法(含分页paginate)
May 21 Python
pyCharm 实现关闭代码检查
Jun 09 Python
Python 列表推导式需要注意的地方
Oct 23 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
php中通过smtp发邮件的类,测试通过
2007/01/22 PHP
PHP多进程编程总结(推荐)
2016/07/18 PHP
redis+php实现微博(一)注册与登录功能详解
2019/09/23 PHP
Javascript实例教程(19) 使用HoTMetal(6)
2006/12/23 Javascript
Jquery Ajax学习实例6 向WebService发出请求,返回DataSet(XML) 异步调用
2010/03/18 Javascript
javaScript call 函数的用法说明
2010/04/09 Javascript
js中将字符串转换成json的三种方式
2011/01/12 Javascript
让jQuery Mobile不显示讨厌loading界面的方法
2014/02/19 Javascript
JavaScript获取网页支持表单字符集的方法
2015/04/02 Javascript
jquery实现手机号码选号的方法
2015/07/31 Javascript
JS实现页面载入时随机显示图片效果
2016/09/07 Javascript
数组Array的一些方法(总结)
2017/02/17 Javascript
JS+HTML5 FileReader实现文件上传前本地预览功能
2020/03/27 Javascript
AngularJS实现表单元素值绑定操作示例
2017/10/11 Javascript
Vue 换肤的示例实践
2018/01/23 Javascript
JavaScript中join()、splice()、slice()和split()函数用法示例
2018/08/24 Javascript
Electron vue的使用教程图文详解
2019/07/05 Javascript
详解django模板与vue.js冲突问题
2019/07/07 Javascript
小程序分页实践之编写可复用分页组件
2019/07/18 Javascript
vue中音频wavesurfer.js的使用方法
2020/02/20 Vue.js
[01:15:36]加油刀塔第二期网络版
2014/08/09 DOTA
[01:08:43]DOTA2-DPC中国联赛定级赛 Phoenix vs DLG BO3第一场 1月9日
2021/03/11 DOTA
django2 快速安装指南分享
2018/01/05 Python
利用Python如何批量修改数据库执行Sql文件
2018/07/29 Python
在Sublime Editor中配置Python环境的详细教程
2020/05/03 Python
Python基于BeautifulSoup爬取京东商品信息
2020/06/01 Python
详解Python中string模块除去Str还剩下什么
2020/11/30 Python
美国南部最大的家族百货公司:Belk
2017/01/30 全球购物
美国儿童珠宝在线零售商:Loveivy
2019/05/22 全球购物
汽车专业人才自我鉴定范文
2013/12/29 职场文书
房产销售独家委托书范本
2014/10/01 职场文书
中学生检讨书1000字
2014/10/28 职场文书
农村环境卫生倡议书
2015/04/29 职场文书
《地震中的父与子》教学反思
2016/02/16 职场文书
2016年大学生党员公开承诺书
2016/03/24 职场文书
深入浅析python3 依赖倒置原则(示例代码)
2021/07/09 Python