python爬虫如何解决图片验证码


Posted in Python onFebruary 14, 2021

之前刚开始做爬虫的时候遇到过登录验证码问题,看过很多帖子都没有解决我的问题,发现大多数帖子都是治标不治本,于是想分享一下自己的解决方案。本次采用的网站是古诗文网,使用百度API,因为百度API免费!免费!免费!适合自己学习的时候使用。如果还没有使用过百度API识别验证码的朋友可以看一下我的这个帖子。
以下案例采用的时古诗文网:登录古诗文网,

1、selenium处理图片验证码

先定位到验证码图片,在获取验证码图片在页面中的位置,使用save_screenshot截取页面,再根据图片的位置去截取验证码,最后通过接口识别文字获取验证码,直接上代码:

element = driver.find_element_by_id('imgCode') # 定位验证码图片
# 获取验证码图片在网页中的位置
left = int(element.location['x'])  # 获取图片左上角坐标x
top = int(element.location['y'])  # 获取图片左上角y
right = int(element.location['x'] + element.size['width'])    # 获取图片右下角x
bottom = int(element.location['y'] + element.size['height'])  # 获取图片右下角y

# 通过Image处理图像
path = current_dir + str(random.random()) + '.png'  # 生成随机文件名
driver.save_screenshot(path)    # 截取当前窗口并保存图片
im = Image.open(path)        # 打开图片
im = im.crop((left, top, right, bottom))  # 截图验证码
im.save(path)    # 保存验证码图片

# 使用百度API识别验证码
def get_code():
  client = AipOcr(APP_ID, API_KEY, SECRET_KEY)  # 百度API文档中提供的方法识别文字

  # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(path)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(path)

  # 读取图片,应为百度API中提供的方法参数只能是字节流
  with open(path, 'rb')as f:
    image = f.read()
  # 使用API中提供的方法识别验证码并返回验证码
  code = client.basicGeneral(image)

  print(code['words_result'][0]['words']) # {'words_result': [{'words': '4TBiD ', 'location': {'top': 1, 'left': 6, 'width': 43, 'height': 13}}], 'log_id': 1358288307112378368, 'words_result_num': 1}
  return code['words_result'][0]['words']

2、使用requests请求验证码

这里用到了会话机制,对于初学者来说可能不太了解,简单说一下会话机制的作用,会话就是用来保存你之前请求的cookie,让浏览器知道你之前就在这里,这样浏览器就不会认为你重新来到这里,从而刷新验证码,这样就可以带着我们获取的验证码去登录了。

conn = requests.Sessoin(  # 创建会话
resp = conn.get('https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx')
selector = Selector(text=resp.text)
img_url = 'https://so.gushiwen.cn/'+selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由
img = conn.get(img_url)  # 保持会话请求
filename = str(random.random()) + '.png'
with open(filename, 'wb')as f:
  f.write(img.content)
# 为了后面的调用接口识别不报图片格式错误,进行一次图片转换
im = Image.open(filename)
im.save(filename)
# 使用二进制方式读取图片
with open(filename, 'rb')as f:
image = f.read()
data = client.handwriting(image)  # diao'yong
# 使用API中提供的方法识别验证码并返回验证码
code = client.basicGeneral(image)
code = code['words_result'][0]['words']

selenium源码

# -* coding: utf-8 *-

import time
import random
from PIL import Image
from aip import AipOcr
from selenium.webdriver import Chrome

# 百度API参数
APP_ID = '23647800'
API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'
SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口


def scrapy(username, password):
  """
  :param username:  用户名
  :param password:  密码
  """
  driver = Chrome()
  driver.get('https://so.gushiwen.cn/user/login.aspx')
  driver.find_element_by_id('email').send_keys(username) # 输入账号
  driver.find_element_by_id('pwd').send_keys(password)  # 输入密码

  element = driver.find_element_by_id('imgCode') # 定位验证码图片
  # 获取验证码图片在网页中的位置
  left = int(element.location['x']) # 获取图片左上角坐标x
  top = int(element.location['y']) # 获取图片左上角y
  right = int(element.location['x'] + element.size['width']) # 获取图片右下角x
  bottom = int(element.location['y'] + element.size['height']) # 获取图片右下角y

  # 通过Image处理图像
  filename = str(random.random()) + '.png' # 生成随机文件名
  driver.save_screenshot(filename) # 截取当前窗口并保存图片
  im = Image.open(filename) # 打开图片
  im = im.crop((left, top, right, bottom)) # 截图验证码
  im.save(filename) # 保存验证码图片
  # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(filename)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(filename)
  # 读取图片,应为百度API中提供的方法参数只能是字节流
  with open(filename, 'rb')as f:
    image = f.read()
  # 使用API中提供的方法识别验证码并返回验证码
  data = client.basicGeneral(image)
  try:
    code = data['words_result'][0]['words']
  except:
    return data['error_msg']

  driver.find_element_by_id('code').send_keys(code)  # 输入验证码
  driver.find_element_by_id('denglu').click()   # 点击登录
  time.sleep(1000)  # 为了看清登录,等待1000秒


if __name__ == '__main__':
  print(scrapy(username, password)) # 传入你在古诗文网注册的账号密码

requests源码

# -* coding: utf-8 *-
import os
import random
import re
import requests
from PIL import Image
from aip import AipOcr
from scrapy import Selector

headers = {
  'referer': 'https://so.gushiwen.cn/user/login.aspx',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
}

# 百度API参数
APP_ID = '23647800'
API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'
SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'

def scrapy(username, password):
  """
  :param username:  用户名
  :param password:  密码
  """
  client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口
  conn = requests.Session() # 创建会话
  resp = conn.get('https://so.gushiwen.cn/user/login.aspx', headers=headers) # 获取登录页面
  selector = Selector(text=resp.text)
  __VIEWSTATE = selector.xpath('.//input[@id="__VIEWSTATE"]/@value').get()
  __VIEWSTATEGENERATOR = selector.xpath('.//input[@id="__VIEWSTATEGENERATOR"]/@value').get()
  img_url = 'https://so.gushiwen.cn/' + selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由
  img = conn.get(img_url, headers=headers) # 获取图片路由
  # 保存图片
  filename = str(random.random()) + '.png' # 随机生成文件名, 图片格式不能为jpg,API不支持jpg格式的识别
  with open(filename, 'wb')as f:
    f.write(img.content)
   # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(filename)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(filename)
  # 使用二进制方式读取图片
  with open(filename, 'rb')as f:
    image = f.read()
  # # 标准识别, 每天免费50000次
  # data = client.basicGeneral(image)
  # 精确识别,每天免费500次
  data = client.handwriting(image)
  # 捕获一下接口识别当中的错误,可参照文档查看报错原因
  try:
    code = data['words_result'][0]['words']
  except:
    return data['error_msg']
  form_data = {
    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
    'from': '',
    'email': username,
    'pwd': password,
    'code':cod,
    'denglu': '登录'
  }
  # 登录
  html = conn.post('https://so.gushiwen.cn/user/login.aspx', headers=headers, data=form_data).text
  # 获取登录标志位
  login_flag = re.findall("alert\('(.*?)'\);",html)[0] if re.findall("alert\('(.*?)'\);",html) else ''
  if not login_flag:
    return '登录成功!'
  elif '验证码有误!' in login_flag:
    return "验证码错误"


if __name__ == '__main__':
  print(scrapy(username, password))

以上就是python爬虫如何解决图片验证码的详细内容,更多关于python 解决图片验证码的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python自动化运维_文件内容差异对比分析
Dec 13 Python
Python简单计算给定某一年的某一天是星期几示例
Jun 27 Python
python调用tcpdump抓包过滤的方法
Jul 18 Python
Python判断一个文件夹内哪些文件是图片的实例
Dec 07 Python
python 函数内部修改外部变量的方法
Dec 18 Python
python读取文件名并改名字的实例
Jan 07 Python
python实现文件的备份流程详解
Jun 18 Python
python将类似json的数据存储到MySQL中的实例
Jul 12 Python
Python阶乘求和的代码详解
Feb 14 Python
PyQt实现计数器的方法示例
Jan 18 Python
Python字典和列表性能之间的比较
Jun 07 Python
Python使用OpenCV实现虚拟缩放效果
Feb 28 Python
Python实现粒子群算法的示例
Feb 14 #Python
Python中对象的比较操作==和is区别详析
Feb 12 #Python
python绘图模块之利用turtle画图
Feb 12 #Python
Python列表的深复制和浅复制示例详解
Feb 12 #Python
Python就将所有的英文单词首字母变成大写
Feb 12 #Python
详解Java中一维、二维数组在内存中的结构
Feb 11 #Python
SpringBoot首页设置解析(推荐)
Feb 11 #Python
You might like
php的SimpleXML方法读写XML接口文件实例解析
2014/06/16 PHP
PHP使用正则表达式获取微博中的话题和对象名
2015/07/18 PHP
php mysql like 实现多关键词搜索的方法
2016/10/29 PHP
php模仿qq空间或朋友圈发布动态、评论动态、回复评论、删除动态或评论的功能(中)
2017/06/11 PHP
PHP语言对接抖音快手小红书视频/图片去水印API接口源码
2020/08/11 PHP
JS 面向对象之神奇的prototype
2011/02/26 Javascript
javascript题目,重写函数让其无限相加
2012/02/15 Javascript
setTimeout函数兼容各主流浏览器运行执行效果实例
2013/06/13 Javascript
jQuery中获取Radio元素值的方法
2013/07/02 Javascript
javascript 动态创建表格
2015/01/08 Javascript
JavaScript中Math.SQRT2属性的使用详解
2015/06/14 Javascript
javascript实现随机显示星星特效
2016/01/28 Javascript
jQuery插件datatables使用教程
2016/04/21 Javascript
AngularJS基础 ng-mouseenter 指令示例代码
2016/08/02 Javascript
js判断是否为空和typeof的用法(详解)
2016/10/07 Javascript
vue通过滚动行为实现从列表到详情,返回列表原位置的方法
2018/08/31 Javascript
基于vue.js组件实现分页效果
2018/12/29 Javascript
详解js中let与var声明变量的区别
2020/04/05 Javascript
小程序实现列表倒计时功能
2021/01/29 Javascript
python操作xml文件示例
2014/04/07 Python
Python中title()方法的使用简介
2015/05/20 Python
Python环境变量设置方法
2016/08/28 Python
Python 自动化表单提交实例代码
2017/06/08 Python
Python输出带颜色的字符串实例
2017/10/10 Python
PyTorch CNN实战之MNIST手写数字识别示例
2018/05/29 Python
Python装饰器原理与基本用法分析
2020/01/07 Python
jupyter 实现notebook中显示完整的行和列
2020/04/09 Python
Python实现弹球小游戏
2020/08/01 Python
python爬虫beautifulsoup解析html方法
2020/12/07 Python
医学生自我鉴定范文
2013/11/08 职场文书
网络程序员自荐信
2014/01/25 职场文书
经济职业学院毕业生自荐书
2014/03/17 职场文书
环保建议书200字
2014/05/14 职场文书
个人授权委托书范文
2014/09/21 职场文书
2014年采购部工作总结
2014/11/20 职场文书
bootstrapv4轮播图去除两侧阴影及线框的方法
2022/02/15 HTML / CSS