python爬虫之自动登录与验证码识别


Posted in Python onJune 15, 2020

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
 result = {}

 tree = etree.HTML(html)
 try:
 result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
 result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
 result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
 except IndexError, e:
 return None

 valimg = None
 valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
 if len(valimgs) > 0:
 valimg = valimgs[0]

 validateCode = None
 if valimg:
 fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
 config['gid'] = config['gid'] + 1
 ri = s.get("https://passport.csdn.net" + valimg)
 with open(fname, 'wb') as f:
  for chk in ri:
  f.write(chk)
  f.close()
 validateCode = pytesser.image_file_to_string(fname)
 validateCode = validateCode.strip()
 validateCode = validateCode.replace(' ', '')
 validateCode = validateCode.replace('\n', '')
 result['validateCode'] = validateCode

 return result

def login(usr, pwd, idx):
 s = requests.Session()

 r = s.get('https://passport.csdn.net/account/login',
 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', })

 while True:
 res = parse(s, r.text, idx)
 if res == None:
  return False
 url = 'https://passport.csdn.net' + res['path']
 form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}
 if res.has_key('validateCode'):
  form['validateCode'] = res['validateCode']
 s.headers.update({
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
  'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'passport.csdn.net',
  'Origin': 'https://passport.csdn.net',
  'Referer': 'https://passport.csdn.net/account/login',
  'Upgrade-Insecure-Requests': 1,
  })
 r = s.post(url, data=form)

 tree = etree.HTML(r.text)
 err_strs = tree.xpath('//span[@id="error-message"]/text()')
 if len(err_strs) == 0:
  return True
 err_str = err_strs[0]
 print err_str
 err = err_str.encode('utf8')

 validate_code_err = '验证码错误'
 usr_pass_err = '帐户名或登录密码不正确,请重新输入'
 try_later_err = '登录失败连续超过5次,请10分钟后再试'

 if err[:5] == validate_code_err[:5]:
  pass
 elif err[:5] == usr_pass_err[:5]:
  return False
 elif err[:5] == try_later_err[:5]:
  return False
 else:
  return True

if __name__ == '__main__':
 main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python清除指定目录内所有文件中script的方法
Jun 30 Python
Python变量作用范围实例分析
Jul 07 Python
python生成随机图形验证码详解
Nov 08 Python
利用python实现微信头像加红色数字功能
Mar 26 Python
如何优雅地处理Django中的favicon.ico图标详解
Jul 05 Python
利用python打开摄像头及颜色检测方法
Aug 03 Python
解决Django 在ForeignKey中出现 non-nullable field错误的问题
Aug 06 Python
解决TensorFlow模型恢复报错的问题
Feb 06 Python
Python操作Jira库常用方法解析
Apr 10 Python
python缩进长度是否统一
Aug 02 Python
Python NumPy灰度图像的压缩原理讲解
Aug 04 Python
基于Python编写简易版的天天跑酷游戏的示例代码
Mar 23 Python
python使用matplotlib模块绘制多条折线图、散点图
Apr 26 #Python
python绘制多个曲线的折线图
Mar 23 #Python
python使用Matplotlib绘制分段函数
Sep 25 #Python
python使用Matplotlib画饼图
Sep 25 #Python
python使用Matplotlib画条形图
Mar 25 #Python
python使用matplotlib画饼状图
Sep 25 #Python
符合语言习惯的 Python 优雅编程技巧【推荐】
Sep 25 #Python
You might like
win7下memCache的安装过程(具体操作步骤)
2013/06/28 PHP
windows8.1下Apache+Php+MySQL配置步骤
2015/10/30 PHP
Laravel使用消息队列需要注意的一些问题
2017/12/13 PHP
PHP中抽象类,接口功能、定义方法示例
2019/02/26 PHP
laravel 实现根据字段不同值做不同查询
2019/10/23 PHP
javascript iframe中打开文件,并检测iframe存在否
2008/12/28 Javascript
javascript闭包的理解和实例
2010/08/12 Javascript
各浏览器对click方法的支持差异小结
2011/07/31 Javascript
JS 对象属性相关(检查属性、枚举属性等)
2015/04/05 Javascript
JavaScript的jQuery库中ready方法的学习教程
2015/08/14 Javascript
自定义刻度jQuery进度条及插件
2015/09/02 Javascript
AngularJS在IE8的不支持的解决方法
2016/05/13 Javascript
AngularJS自定义插件实现网站用户引导功能示例
2016/11/07 Javascript
详解如何较好的使用js
2016/12/16 Javascript
Vue.js原理分析之observer模块详解
2017/02/17 Javascript
H5实现中奖记录逐行滚动切换效果
2017/03/13 Javascript
VUE实现日历组件功能
2017/03/13 Javascript
Vue之beforeEach非登录不能访问的实现(代码亲测)
2019/07/18 Javascript
layUI实现前端分页和后端分页
2019/07/27 Javascript
微信小程序上传图片并等比列压缩到指定大小的实例代码
2019/10/24 Javascript
[01:15:36]加油刀塔第二期网络版
2014/08/09 DOTA
python list删除元素时要注意的坑点分享
2018/04/18 Python
python八皇后问题的解决方法
2018/09/27 Python
python游戏开发之视频转彩色字符动画
2019/04/26 Python
Python实现平行坐标图的绘制(plotly)方式
2019/11/22 Python
使用Python的datetime库处理时间(RPA流程)
2019/11/24 Python
解决tensorflow模型压缩的问题_踩坑无数,总算搞定
2021/03/02 Python
CSS3动画和HTML5新特性详解
2020/08/31 HTML / CSS
丹尼尔惠灵顿手表天猫官方旗舰店:Daniel Wellington
2017/08/25 全球购物
室内设计实习自我鉴定
2013/09/25 职场文书
销售演讲稿范文
2014/01/08 职场文书
音乐教师求职信
2014/06/28 职场文书
英语系本科生求职信
2014/07/15 职场文书
新员工试用期工作总结2015
2015/05/28 职场文书
2015大学迎新标语
2015/07/16 职场文书
vue-cil之axios的二次封装与proxy反向代理使用说明
2022/04/07 Vue.js