python爬虫之自动登录与验证码识别


Posted in Python onJune 15, 2020

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
 result = {}

 tree = etree.HTML(html)
 try:
 result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
 result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
 result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
 except IndexError, e:
 return None

 valimg = None
 valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
 if len(valimgs) > 0:
 valimg = valimgs[0]

 validateCode = None
 if valimg:
 fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
 config['gid'] = config['gid'] + 1
 ri = s.get("https://passport.csdn.net" + valimg)
 with open(fname, 'wb') as f:
  for chk in ri:
  f.write(chk)
  f.close()
 validateCode = pytesser.image_file_to_string(fname)
 validateCode = validateCode.strip()
 validateCode = validateCode.replace(' ', '')
 validateCode = validateCode.replace('\n', '')
 result['validateCode'] = validateCode

 return result

def login(usr, pwd, idx):
 s = requests.Session()

 r = s.get('https://passport.csdn.net/account/login',
 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', })

 while True:
 res = parse(s, r.text, idx)
 if res == None:
  return False
 url = 'https://passport.csdn.net' + res['path']
 form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}
 if res.has_key('validateCode'):
  form['validateCode'] = res['validateCode']
 s.headers.update({
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
  'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'passport.csdn.net',
  'Origin': 'https://passport.csdn.net',
  'Referer': 'https://passport.csdn.net/account/login',
  'Upgrade-Insecure-Requests': 1,
  })
 r = s.post(url, data=form)

 tree = etree.HTML(r.text)
 err_strs = tree.xpath('//span[@id="error-message"]/text()')
 if len(err_strs) == 0:
  return True
 err_str = err_strs[0]
 print err_str
 err = err_str.encode('utf8')

 validate_code_err = '验证码错误'
 usr_pass_err = '帐户名或登录密码不正确,请重新输入'
 try_later_err = '登录失败连续超过5次,请10分钟后再试'

 if err[:5] == validate_code_err[:5]:
  pass
 elif err[:5] == usr_pass_err[:5]:
  return False
 elif err[:5] == try_later_err[:5]:
  return False
 else:
  return True

if __name__ == '__main__':
 main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python遍历目录的4种方法实例介绍
Apr 13 Python
使用pyecharts无法import Bar的解决方案
Apr 23 Python
matplotlib绘制符合论文要求的图片实例(必看篇)
Jun 02 Python
python中import reload __import__的区别详解
Oct 16 Python
python之pyqt5通过按钮改变Label的背景颜色方法
Jun 13 Python
python文本数据处理学习笔记详解
Jun 17 Python
使用python爬取微博数据打造一颗“心”
Jun 28 Python
django框架模板语言使用方法详解
Jul 18 Python
python之拟合的实现
Jul 19 Python
在python中实现求输出1-3+5-7+9-......101的和
Apr 02 Python
python线程池如何使用
May 28 Python
Python爬虫之爬取最新更新的小说网站
May 06 Python
python使用matplotlib模块绘制多条折线图、散点图
Apr 26 #Python
python绘制多个曲线的折线图
Mar 23 #Python
python使用Matplotlib绘制分段函数
Sep 25 #Python
python使用Matplotlib画饼图
Sep 25 #Python
python使用Matplotlib画条形图
Mar 25 #Python
python使用matplotlib画饼状图
Sep 25 #Python
符合语言习惯的 Python 优雅编程技巧【推荐】
Sep 25 #Python
You might like
短波的认识
2021/03/01 无线电
php生成随机字符串可指定纯数字、纯字母或者混合的
2014/04/18 PHP
destoon实现首页显示供应、企业、资讯条数的方法
2014/07/15 PHP
php上传大文件设置方法
2016/04/14 PHP
PHP会话操作之cookie用法分析
2016/09/28 PHP
PHP排序算法之简单选择排序(Simple Selection Sort)实例分析
2018/04/20 PHP
IE浏览器打印的页眉页脚设置解决方法
2009/12/08 Javascript
jquery购物车实时结算特效实现思路
2013/09/23 Javascript
jQuery针对各类元素操作基础教程
2014/08/29 Javascript
jquery搜索框效果实现方法
2015/01/16 Javascript
使用JavaScript+canvas实现图片裁剪
2015/01/30 Javascript
JavaScript中的对象与JSON
2015/07/03 Javascript
使用伪命名空间封装保护独自创建的对象方法
2016/08/04 Javascript
jQuery多文件异步上传带进度条实例代码
2016/08/16 Javascript
Express URL跳转(重定向)的实现方法
2017/04/07 Javascript
vue2.0实现导航菜单切换效果
2017/05/08 Javascript
JavaScript满天星导航栏实现方法
2018/03/08 Javascript
JavaScript的Object.defineProperty详解
2018/07/09 Javascript
微信小程序冒泡事件及其阻止方法实例分析
2018/12/06 Javascript
JavaScript中十种一步拷贝数组的方法实例详解
2019/04/22 Javascript
Vue数据双向绑定底层实现原理
2019/11/22 Javascript
疯狂上涨的Python 开发者应从2.x还是3.x着手?
2017/11/16 Python
Python3将数据保存为txt文件的方法
2019/09/12 Python
tensorflow模型文件(ckpt)转pb文件的方法(不知道输出节点名)
2020/04/22 Python
html5 touch事件实现页面上下滑动效果【附代码】
2016/03/10 HTML / CSS
HTML5 Canvas入门学习教程
2016/03/17 HTML / CSS
销售顾问岗位职责
2014/02/25 职场文书
工会主席事迹材料
2014/06/03 职场文书
2014年幼儿园个人工作总结
2014/11/10 职场文书
2014大学辅导员工作总结
2014/12/02 职场文书
2015年数学教研组工作总结
2015/05/23 职场文书
党支部意见范文
2015/06/02 职场文书
领导视察通讯稿
2015/07/18 职场文书
话题作文之自信作文
2019/11/15 职场文书
详解php中流行的rpc框架
2021/05/29 PHP
Java输出Hello World完美过程解析
2021/06/13 Java/Android