python爬虫如何解决图片验证码


Posted in Python onFebruary 14, 2021

之前刚开始做爬虫的时候遇到过登录验证码问题,看过很多帖子都没有解决我的问题,发现大多数帖子都是治标不治本,于是想分享一下自己的解决方案。本次采用的网站是古诗文网,使用百度API,因为百度API免费!免费!免费!适合自己学习的时候使用。如果还没有使用过百度API识别验证码的朋友可以看一下我的这个帖子。
以下案例采用的时古诗文网:登录古诗文网,

1、selenium处理图片验证码

先定位到验证码图片,在获取验证码图片在页面中的位置,使用save_screenshot截取页面,再根据图片的位置去截取验证码,最后通过接口识别文字获取验证码,直接上代码:

element = driver.find_element_by_id('imgCode') # 定位验证码图片
# 获取验证码图片在网页中的位置
left = int(element.location['x'])  # 获取图片左上角坐标x
top = int(element.location['y'])  # 获取图片左上角y
right = int(element.location['x'] + element.size['width'])    # 获取图片右下角x
bottom = int(element.location['y'] + element.size['height'])  # 获取图片右下角y

# 通过Image处理图像
path = current_dir + str(random.random()) + '.png'  # 生成随机文件名
driver.save_screenshot(path)    # 截取当前窗口并保存图片
im = Image.open(path)        # 打开图片
im = im.crop((left, top, right, bottom))  # 截图验证码
im.save(path)    # 保存验证码图片

# 使用百度API识别验证码
def get_code():
  client = AipOcr(APP_ID, API_KEY, SECRET_KEY)  # 百度API文档中提供的方法识别文字

  # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(path)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(path)

  # 读取图片,应为百度API中提供的方法参数只能是字节流
  with open(path, 'rb')as f:
    image = f.read()
  # 使用API中提供的方法识别验证码并返回验证码
  code = client.basicGeneral(image)

  print(code['words_result'][0]['words']) # {'words_result': [{'words': '4TBiD ', 'location': {'top': 1, 'left': 6, 'width': 43, 'height': 13}}], 'log_id': 1358288307112378368, 'words_result_num': 1}
  return code['words_result'][0]['words']

2、使用requests请求验证码

这里用到了会话机制,对于初学者来说可能不太了解,简单说一下会话机制的作用,会话就是用来保存你之前请求的cookie,让浏览器知道你之前就在这里,这样浏览器就不会认为你重新来到这里,从而刷新验证码,这样就可以带着我们获取的验证码去登录了。

conn = requests.Sessoin(  # 创建会话
resp = conn.get('https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx')
selector = Selector(text=resp.text)
img_url = 'https://so.gushiwen.cn/'+selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由
img = conn.get(img_url)  # 保持会话请求
filename = str(random.random()) + '.png'
with open(filename, 'wb')as f:
  f.write(img.content)
# 为了后面的调用接口识别不报图片格式错误,进行一次图片转换
im = Image.open(filename)
im.save(filename)
# 使用二进制方式读取图片
with open(filename, 'rb')as f:
image = f.read()
data = client.handwriting(image)  # diao'yong
# 使用API中提供的方法识别验证码并返回验证码
code = client.basicGeneral(image)
code = code['words_result'][0]['words']

selenium源码

# -* coding: utf-8 *-

import time
import random
from PIL import Image
from aip import AipOcr
from selenium.webdriver import Chrome

# 百度API参数
APP_ID = '23647800'
API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'
SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口


def scrapy(username, password):
  """
  :param username:  用户名
  :param password:  密码
  """
  driver = Chrome()
  driver.get('https://so.gushiwen.cn/user/login.aspx')
  driver.find_element_by_id('email').send_keys(username) # 输入账号
  driver.find_element_by_id('pwd').send_keys(password)  # 输入密码

  element = driver.find_element_by_id('imgCode') # 定位验证码图片
  # 获取验证码图片在网页中的位置
  left = int(element.location['x']) # 获取图片左上角坐标x
  top = int(element.location['y']) # 获取图片左上角y
  right = int(element.location['x'] + element.size['width']) # 获取图片右下角x
  bottom = int(element.location['y'] + element.size['height']) # 获取图片右下角y

  # 通过Image处理图像
  filename = str(random.random()) + '.png' # 生成随机文件名
  driver.save_screenshot(filename) # 截取当前窗口并保存图片
  im = Image.open(filename) # 打开图片
  im = im.crop((left, top, right, bottom)) # 截图验证码
  im.save(filename) # 保存验证码图片
  # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(filename)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(filename)
  # 读取图片,应为百度API中提供的方法参数只能是字节流
  with open(filename, 'rb')as f:
    image = f.read()
  # 使用API中提供的方法识别验证码并返回验证码
  data = client.basicGeneral(image)
  try:
    code = data['words_result'][0]['words']
  except:
    return data['error_msg']

  driver.find_element_by_id('code').send_keys(code)  # 输入验证码
  driver.find_element_by_id('denglu').click()   # 点击登录
  time.sleep(1000)  # 为了看清登录,等待1000秒


if __name__ == '__main__':
  print(scrapy(username, password)) # 传入你在古诗文网注册的账号密码

requests源码

# -* coding: utf-8 *-
import os
import random
import re
import requests
from PIL import Image
from aip import AipOcr
from scrapy import Selector

headers = {
  'referer': 'https://so.gushiwen.cn/user/login.aspx',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
}

# 百度API参数
APP_ID = '23647800'
API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'
SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'

def scrapy(username, password):
  """
  :param username:  用户名
  :param password:  密码
  """
  client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口
  conn = requests.Session() # 创建会话
  resp = conn.get('https://so.gushiwen.cn/user/login.aspx', headers=headers) # 获取登录页面
  selector = Selector(text=resp.text)
  __VIEWSTATE = selector.xpath('.//input[@id="__VIEWSTATE"]/@value').get()
  __VIEWSTATEGENERATOR = selector.xpath('.//input[@id="__VIEWSTATEGENERATOR"]/@value').get()
  img_url = 'https://so.gushiwen.cn/' + selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由
  img = conn.get(img_url, headers=headers) # 获取图片路由
  # 保存图片
  filename = str(random.random()) + '.png' # 随机生成文件名, 图片格式不能为jpg,API不支持jpg格式的识别
  with open(filename, 'wb')as f:
    f.write(img.content)
   # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(filename)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(filename)
  # 使用二进制方式读取图片
  with open(filename, 'rb')as f:
    image = f.read()
  # # 标准识别, 每天免费50000次
  # data = client.basicGeneral(image)
  # 精确识别,每天免费500次
  data = client.handwriting(image)
  # 捕获一下接口识别当中的错误,可参照文档查看报错原因
  try:
    code = data['words_result'][0]['words']
  except:
    return data['error_msg']
  form_data = {
    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
    'from': '',
    'email': username,
    'pwd': password,
    'code':cod,
    'denglu': '登录'
  }
  # 登录
  html = conn.post('https://so.gushiwen.cn/user/login.aspx', headers=headers, data=form_data).text
  # 获取登录标志位
  login_flag = re.findall("alert\('(.*?)'\);",html)[0] if re.findall("alert\('(.*?)'\);",html) else ''
  if not login_flag:
    return '登录成功!'
  elif '验证码有误!' in login_flag:
    return "验证码错误"


if __name__ == '__main__':
  print(scrapy(username, password))

以上就是python爬虫如何解决图片验证码的详细内容,更多关于python 解决图片验证码的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python随机生成信用卡卡号的实现方法
May 14 Python
Python实现Mysql数据库连接池实例详解
Apr 11 Python
python使用webdriver爬取微信公众号
Aug 31 Python
python 将json数据提取转化为txt的方法
Oct 26 Python
pyqt远程批量执行Linux命令程序的方法
Feb 14 Python
基于python框架Scrapy爬取自己的博客内容过程详解
Aug 05 Python
python利用7z批量解压rar的实现
Aug 07 Python
python中@property和property函数常见使用方法示例
Oct 21 Python
详解python UDP 编程
Aug 24 Python
总结Pyinstaller的坑及终极解决方法(小结)
Sep 21 Python
Python 里最强的地图绘制神器
Mar 01 Python
对Keras自带Loss Function的深入研究
May 25 Python
Python实现粒子群算法的示例
Feb 14 #Python
Python中对象的比较操作==和is区别详析
Feb 12 #Python
python绘图模块之利用turtle画图
Feb 12 #Python
Python列表的深复制和浅复制示例详解
Feb 12 #Python
Python就将所有的英文单词首字母变成大写
Feb 12 #Python
详解Java中一维、二维数组在内存中的结构
Feb 11 #Python
SpringBoot首页设置解析(推荐)
Feb 11 #Python
You might like
用函数读出数据表内容放入二维数组
2006/10/09 PHP
php删除与复制文件夹及其文件夹下所有文件的实现代码
2013/01/23 PHP
深入php函数file_get_contents超时处理的方法详解
2013/06/03 PHP
CI(CodeIgniter)框架介绍
2014/06/09 PHP
微信支付PHP SDK之微信公众号支付代码详解
2015/12/09 PHP
Yii2中OAuth扩展及QQ互联登录实现方法
2016/05/16 PHP
PHP入门教程之PHP操作MySQL的方法分析
2016/09/11 PHP
JS 创建对象(常见的几种方法)
2008/11/03 Javascript
JavaScript事件委托技术实例分析
2015/02/06 Javascript
javascript时间排序算法实现活动秒杀倒计时效果
2021/01/28 Javascript
Bootstrap页面布局基础知识全面解析
2016/06/13 Javascript
JavaScript九九乘法口诀表的简单实现
2016/10/04 Javascript
nodejs操作mysql实现增删改查的实例
2017/05/28 NodeJs
React-Native中禁用Navigator手势返回的示例代码
2017/09/09 Javascript
Angular中使用MathJax遇到的一些问题
2017/12/15 Javascript
基于js中的存储键值对以及注意事项介绍
2018/03/30 Javascript
webpack4打包vue前端多页面项目
2018/09/17 Javascript
vue+canvas实现炫酷时钟效果的倒计时插件(已发布到npm的vue2插件,开箱即用)
2018/11/05 Javascript
解决vue 界面在苹果手机上滑动点击事件等卡顿问题
2018/11/27 Javascript
vue如何实现动态加载脚本
2020/02/05 Javascript
ng-alain的sf如何自定义部件的流程
2020/06/12 Javascript
如何在 Vue 表单中处理图片
2021/01/26 Vue.js
Python流程控制 if else实现解析
2019/09/02 Python
python yield关键词案例测试
2019/10/15 Python
详解python中*号的用法
2019/10/21 Python
解决python打开https出现certificate verify failed的问题
2020/09/03 Python
Pycharm添加虚拟解释器报错问题解决方案
2020/10/13 Python
浅谈Python __init__.py的作用
2020/10/28 Python
Python Serial串口基本操作(收发数据)
2020/11/06 Python
python xlsxwriter模块的使用
2020/12/24 Python
美国的Eastbay旗下的运动款子品牌:Final-Score
2018/01/01 全球购物
高一自我鉴定
2013/12/17 职场文书
英语简历自我评价
2014/01/26 职场文书
运动会稿件100字
2014/09/24 职场文书
街道社区活动报告
2015/02/05 职场文书
DjangoRestFramework 使用 simpleJWT 登陆认证完整记录
2021/06/22 Python