python爬虫之自动登录与验证码识别


Posted in Python onJune 15, 2020

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
 result = {}

 tree = etree.HTML(html)
 try:
 result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
 result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
 result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
 except IndexError, e:
 return None

 valimg = None
 valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
 if len(valimgs) > 0:
 valimg = valimgs[0]

 validateCode = None
 if valimg:
 fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
 config['gid'] = config['gid'] + 1
 ri = s.get("https://passport.csdn.net" + valimg)
 with open(fname, 'wb') as f:
  for chk in ri:
  f.write(chk)
  f.close()
 validateCode = pytesser.image_file_to_string(fname)
 validateCode = validateCode.strip()
 validateCode = validateCode.replace(' ', '')
 validateCode = validateCode.replace('\n', '')
 result['validateCode'] = validateCode

 return result

def login(usr, pwd, idx):
 s = requests.Session()

 r = s.get('https://passport.csdn.net/account/login',
 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', })

 while True:
 res = parse(s, r.text, idx)
 if res == None:
  return False
 url = 'https://passport.csdn.net' + res['path']
 form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}
 if res.has_key('validateCode'):
  form['validateCode'] = res['validateCode']
 s.headers.update({
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
  'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'passport.csdn.net',
  'Origin': 'https://passport.csdn.net',
  'Referer': 'https://passport.csdn.net/account/login',
  'Upgrade-Insecure-Requests': 1,
  })
 r = s.post(url, data=form)

 tree = etree.HTML(r.text)
 err_strs = tree.xpath('//span[@id="error-message"]/text()')
 if len(err_strs) == 0:
  return True
 err_str = err_strs[0]
 print err_str
 err = err_str.encode('utf8')

 validate_code_err = '验证码错误'
 usr_pass_err = '帐户名或登录密码不正确,请重新输入'
 try_later_err = '登录失败连续超过5次,请10分钟后再试'

 if err[:5] == validate_code_err[:5]:
  pass
 elif err[:5] == usr_pass_err[:5]:
  return False
 elif err[:5] == try_later_err[:5]:
  return False
 else:
  return True

if __name__ == '__main__':
 main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Windows系统下使用flup搭建Nginx和Python环境的方法
Dec 25 Python
Python中用post、get方式提交数据的方法示例
Sep 22 Python
Python模拟脉冲星伪信号频率实例代码
Jan 03 Python
使用Python通过win32 COM打开Excel并添加Sheet的方法
May 02 Python
Django之创建引擎索引报错及解决详解
Jul 17 Python
Opencv图像处理:如何判断图片里某个颜色值占的比例
Jun 03 Python
python能在浏览器能运行吗
Jun 17 Python
keras 回调函数Callbacks 断点ModelCheckpoint教程
Jun 18 Python
Python爬虫小例子——爬取51job发布的工作职位
Jul 10 Python
字典算法实现及操作 --python(实用)
Mar 31 Python
Python pandas求方差和标准差的方法实例
Aug 04 Python
Python 全局空间和局部空间
Apr 06 Python
python使用matplotlib模块绘制多条折线图、散点图
Apr 26 #Python
python绘制多个曲线的折线图
Mar 23 #Python
python使用Matplotlib绘制分段函数
Sep 25 #Python
python使用Matplotlib画饼图
Sep 25 #Python
python使用Matplotlib画条形图
Mar 25 #Python
python使用matplotlib画饼状图
Sep 25 #Python
符合语言习惯的 Python 优雅编程技巧【推荐】
Sep 25 #Python
You might like
社区(php&&mysql)五
2006/10/09 PHP
检测png图片是否完整的php代码
2010/09/06 PHP
PHP 自定义错误处理函数的使用详解
2013/05/10 PHP
windows服务器中检测PHP SSL是否开启以及开启SSL的方法
2014/04/25 PHP
php 计算两个时间相差的天数、小时数、分钟数、秒数详解及实例代码
2016/11/09 PHP
jQuery 自动增长的文本输入框实现代码
2010/04/02 Javascript
用Javascript来生成ftp脚本的小例子
2013/07/03 Javascript
javascript比较两个日期的先后示例代码
2014/12/31 Javascript
JavaScript模拟数组合并concat
2016/03/06 Javascript
第二次聊一聊JS require.js模块化工具的基础知识
2016/04/17 Javascript
JavaScript实现无穷滚动加载数据
2017/05/06 Javascript
VUE长按事件需求详解
2017/10/18 Javascript
vue+vue-validator 表单验证功能的实现代码
2017/11/13 Javascript
微信小程序picker组件简单用法示例【附demo源码下载】
2017/12/05 Javascript
详解Angular中通过$location获取地址栏的参数
2018/08/02 Javascript
Vue基础学习之项目整合及优化
2019/06/02 Javascript
解决ele ui 表格表头太长问题的实现
2019/11/13 Javascript
通过实例了解JS执行上下文运行原理
2020/06/17 Javascript
微信小程序实现简单购物车功能
2020/12/30 Javascript
python并发编程之多进程、多线程、异步和协程详解
2016/10/28 Python
漂亮的Django Markdown富文本app插件的实现
2019/01/02 Python
python暴力解压rar加密文件过程详解
2019/07/05 Python
python实现桌面托盘气泡提示
2019/07/29 Python
Python unittest discover批量执行代码实例
2020/09/08 Python
python 实现一个图形界面的汇率计算器
2020/11/09 Python
时尚的CSS3进度条效果
2012/02/22 HTML / CSS
纽约复古灵感的现代珠宝品牌:Lulu Frost
2018/03/03 全球购物
毕业自我鉴定范文
2013/11/06 职场文书
高二历史教学反思
2014/01/25 职场文书
环保建议书500字
2014/05/14 职场文书
课外小组活动总结
2014/08/27 职场文书
离职证明标准格式
2014/09/15 职场文书
社区党风廉政建设调研报告
2015/01/01 职场文书
消防安全培训工作总结
2015/10/23 职场文书
windows安装python超详细图文教程
2021/05/21 Python
一篇文章带你学习Mybatis-Plus(新手入门)
2021/08/02 Java/Android