python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现模拟按键,自动翻页看u17漫画
Mar 17 Python
Python内置函数OCT详解
Nov 09 Python
Python通过命令开启http.server服务器的方法
Nov 04 Python
Scrapy基于selenium结合爬取淘宝的实例讲解
Jun 13 Python
Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)
Jun 28 Python
Python创建数字列表的示例
Nov 28 Python
Flask 上传自定义头像的实例详解
Jan 09 Python
15行Python代码实现免费发送手机短信推送消息功能
Feb 27 Python
python自动化测试三部曲之request+django实现接口测试
Oct 07 Python
Python如何实现感知器的逻辑电路
Dec 25 Python
解决Pytorch半精度浮点型网络训练的问题
May 24 Python
常用的Python代码调试工具总结
Jun 23 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
php中通过curl模拟登陆discuz论坛的实现代码
2012/02/16 PHP
分享一个超好用的php header下载函数
2014/01/31 PHP
php全角字符转换为半角函数
2014/02/07 PHP
php读取目录所有文件信息dir示例
2014/03/18 PHP
php实现斐波那契数列的简单写法
2014/07/19 PHP
ThinkPHP实现将SESSION存入MYSQL的方法
2014/07/22 PHP
php实现根据字符串生成对应数组的方法
2014/09/22 PHP
ThinkPHP写数组插入与获取最新插入数据ID实例
2014/11/03 PHP
PHP抽奖算法程序代码分享
2015/10/08 PHP
php文件系统处理方法小结
2016/05/23 PHP
初学Jquery插件制作 在SageCRM的查询屏幕隐藏部分行的功能
2011/12/26 Javascript
jQuery语法总结和注意事项小结
2012/11/11 Javascript
js 三级关联菜单效果实例
2013/08/13 Javascript
jQuery简单实现QQ空间点赞已经取消点赞
2015/04/02 Javascript
jQuery实现的无缝广告图片左右滚动功能详解
2016/12/24 Javascript
PHP7新特性简述
2017/06/11 Javascript
浅析为什么a="abc" 不等于 a=new String("abc")
2017/10/25 Javascript
解决vuejs 使用value in list 循环遍历数组出现警告的问题
2018/09/26 Javascript
详解vue 路由跳转四种方式 (带参数)
2019/04/28 Javascript
JavaScrip数组去重操作实例小结
2019/06/20 Javascript
[41:56]Spirit vs Liquid Supermajor小组赛A组 BO3 第一场 6.2
2018/06/03 DOTA
[29:16]完美世界DOTA2联赛决赛日 Inki vs LBZS 第三场 11.08
2020/11/10 DOTA
Python查询阿里巴巴关键字排名的方法
2015/07/08 Python
Python计算已经过去多少个周末的方法
2015/07/25 Python
python 实时遍历日志文件
2016/04/12 Python
python判断设备是否联网的方法
2018/06/29 Python
解决新版Pycharm中Matplotlib图像不在弹出独立的显示窗口问题
2019/01/15 Python
GitHub 热门:Python 算法大全,Star 超过 2 万
2019/04/29 Python
python简单验证码识别的实现方法
2019/05/10 Python
python画蝴蝶曲线图的实例
2019/11/21 Python
用python实现一个简单的验证码
2020/12/09 Python
英文演讲稿
2014/05/15 职场文书
2014教师年度工作总结
2014/11/10 职场文书
2015年班长个人工作总结
2015/04/03 职场文书
终止解除劳动合同证明书
2015/06/17 职场文书
2015年教师党员个人总结
2015/11/24 职场文书