python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python迭代器实例简析
Sep 25 Python
在Python中封装GObject模块进行图形化程序编程的教程
Apr 14 Python
Python实现类似jQuery使用中的链式调用的示例
Jun 16 Python
python 正确保留多位小数的实例
Jul 16 Python
Django使用AJAX调用自己写的API接口的方法
Mar 06 Python
pyqt5 键盘监听按下enter 就登陆的实例
Jun 25 Python
Pandas中resample方法详解
Jul 02 Python
关于TensorFlow新旧版本函数接口变化详解
Feb 10 Python
pycharm实现在子类中添加一个父类没有的属性
Mar 12 Python
Python 统计位数为偶数的数字代码详解
Mar 15 Python
Python通过两个dataframe用for循环求笛卡尔积
Apr 29 Python
python 绘制国旗的示例
Sep 27 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
PHP的Yii框架中View视图的使用进阶
2016/03/29 PHP
js 实现无缝滚动 兼容IE和FF
2009/07/15 Javascript
Jquery升级新版本后选择器的语法问题
2010/06/02 Javascript
js parseInt("08")未指定进位制问题
2010/06/19 Javascript
jQueryUI如何自定义组件实现代码
2010/11/14 Javascript
StringTemplate遇见jQuery冲突的解决方法
2011/09/22 Javascript
jQuery实现仿淘宝带有指示条的图片转动切换效果完整实例
2015/03/04 Javascript
jQuery中attr()与prop()函数用法实例详解(附用法区别)
2015/12/29 Javascript
大型JavaScript应用程序架构设计模式
2016/06/29 Javascript
微信小程序 wxapp内容组件 progress详细介绍
2016/10/31 Javascript
JS IOS/iPhone的Safari浏览器不兼容Javascript中的Date()问题如何解决
2016/11/11 Javascript
React学习笔记之列表渲染示例详解
2017/08/22 Javascript
angular2模块和共享模块详解
2018/04/08 Javascript
详解puppeteer使用代理
2018/12/27 Javascript
详解几十行代码实现一个vue的状态管理
2019/01/28 Javascript
简单说说如何使用vue-router插件的方法
2019/04/08 Javascript
python的类方法和静态方法
2014/12/13 Python
Python通过递归遍历出集合中所有元素的方法
2015/02/25 Python
python版本的读写锁操作方法
2016/04/25 Python
在windows下Python打印彩色字体的方法
2018/05/15 Python
通过字符串导入 Python 模块的方法详解
2019/10/27 Python
浅谈pytorch中的BN层的注意事项
2020/06/23 Python
python编写实现抽奖器
2020/09/10 Python
实列教程 一款基于jquery和css3的响应式二级导航菜单
2014/11/13 HTML / CSS
美国办公用品购物网站:Quill.com
2016/09/01 全球购物
历史学专业大学生找工作的自我评价
2013/10/16 职场文书
心理健康心得体会
2014/01/02 职场文书
公司司机岗位职责
2014/02/07 职场文书
中学生学雷锋演讲稿
2014/04/26 职场文书
司法所长先进事迹
2014/06/02 职场文书
2014年大学教师工作总结
2014/12/02 职场文书
2015年考研复习计划
2015/01/19 职场文书
党员年终个人总结
2015/02/14 职场文书
2015年乡镇科普工作总结
2015/05/13 职场文书
使用HttpSessionListener监听器实战
2022/03/17 Java/Android
CSS 实现角标效果的完整代码
2022/06/28 HTML / CSS