编程 Python

python识别验证码图片实例详解

Posted in Python onFebruary 17, 2020

在编写自动化测试用例的时候，每次登录都需要输入验证码，后来想把让python自己识别图片里的验证码，不需要自己手动登陆，所以查了一下识别功能怎么实现，做一下笔记。

首选导入一些用到的库，re、Image、pytesseract、selenium、time

import re # 用于正则
from PIL import Image # 用于打开图片和对图片处理
import pytesseract # 用于图片转文字
from selenium import webdriver # 用于打开网站
import time # 代码运行停顿

首先需要获取验证码图片，才能进一步识别。

创建类，定义webdriver和find_element_by_selector方法，用来打开网页和定位验证码图片的元素

class VerificationCode:
 def __init__(self):
  self.driver = webdriver.Firefox()
  self.find_element = self.driver.find_element_by_css_selector

然后打开浏览器截取验证码图片

def get_pictures(self):
  self.driver.get('http://123.255.123.3') # 打开登陆页面
  self.driver.save_screenshot('pictures.png') # 全屏截图
  page_snap_obj = Image.open('pictures.png')
  img = self.find_element('#pic') # 验证码元素位置
  time.sleep(1)
  location = img.location
  size = img.size # 获取验证码的大小参数
  left = location['x']
  top = location['y']
  right = left + size['width']
  bottom = top + size['height']
  image_obj = page_snap_obj.crop((left, top, right, bottom)) # 按照验证码的长宽，切割验证码
  image_obj.show() # 打开切割后的完整验证码
  self.driver.close() # 处理完验证码后关闭浏览器
  return image_obj

未处理前的验证码图片如下：

python识别验证码图片实例详解

未处理的验证码图片，对于python来说识别率较低，仔细看可以发现图片里有很对五颜六色扰乱识别的点，非常影响识别率。

下面对获取的验证码进行处理。

首先用convert把图片转成黑白色。设置threshold阈值，超过阈值的为黑色

def processing_image(self):
  image_obj = self.get_pictures() # 获取验证码
  img = image_obj.convert("L") # 转灰度
  pixdata = img.load()
  w, h = img.size
  threshold = 160 # 该阈值不适合所有验证码，具体阈值请根据验证码情况设置
  # 遍历所有像素，大于阈值的为黑色
  for y in range(h):
   for x in range(w):
    if pixdata[x, y] < threshold:
     pixdata[x, y] = 0
    else:
     pixdata[x, y] = 255
  return img

经过灰度处理后的图片

python识别验证码图片实例详解

然后删除一些扰乱识别的像素点。

def delete_spot(self):
  images = self.processing_image()
  data = images.getdata()
  w, h = images.size
  black_point = 0
  for x in range(1, w - 1):
   for y in range(1, h - 1):
    mid_pixel = data[w * y + x] # 中央像素点像素值
    if mid_pixel < 50: # 找出上下左右四个方向像素点像素值
     top_pixel = data[w * (y - 1) + x]
     left_pixel = data[w * y + (x - 1)]
     down_pixel = data[w * (y + 1) + x]
     right_pixel = data[w * y + (x + 1)]
     # 判断上下左右的黑色像素点总个数
     if top_pixel < 10:
      black_point += 1
     if left_pixel < 10:
      black_point += 1
     if down_pixel < 10:
      black_point += 1
     if right_pixel < 10:
      black_point += 1
     if black_point < 1:
      images.putpixel((x, y), 255)
     black_point = 0
  # images.show()
  return images

经过去除噪点处理后的图片

python识别验证码图片实例详解

最后把处理后的图片转成文字。

先设置pytesseract的路径，因为默认路径是错的，然后转换图片为文字，由于个别图片中识别会出现处理遗漏，会被识别成空格或则点或则分号什么的，所以增加了一个去除验证码中特殊字符的处理。

def image_str(self):
  image = self.delete_spot()
  pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" # 设置pyteseract路径
  result = pytesseract.image_to_string(image) # 图片转文字
  resultj = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", result) # 去除识别出来的特殊字符
  result_four = resultj[0:4] # 只获取前4个字符
  # print(resultj) # 打印识别的验证码
  return result_four

完整代码如下：

import re # 用于正则
from PIL import Image # 用于打开图片和对图片处理
import pytesseract # 用于图片转文字
from selenium import webdriver # 用于打开网站
import time # 代码运行停顿
 
 
class VerificationCode:
 def __init__(self):
  self.driver = webdriver.Firefox()
  self.find_element = self.driver.find_element_by_css_selector
 
 def get_pictures(self):
  self.driver.get('http://123.255.123.3') # 打开登陆页面
  self.driver.save_screenshot('pictures.png') # 全屏截图
  page_snap_obj = Image.open('pictures.png')
  img = self.find_element('#pic') # 验证码元素位置
  time.sleep(1)
  location = img.location
  size = img.size # 获取验证码的大小参数
  left = location['x']
  top = location['y']
  right = left + size['width']
  bottom = top + size['height']
  image_obj = page_snap_obj.crop((left, top, right, bottom)) # 按照验证码的长宽，切割验证码
  image_obj.show() # 打开切割后的完整验证码
  self.driver.close() # 处理完验证码后关闭浏览器
  return image_obj
 
 def processing_image(self):
  image_obj = self.get_pictures() # 获取验证码
  img = image_obj.convert("L") # 转灰度
  pixdata = img.load()
  w, h = img.size
  threshold = 160
  # 遍历所有像素，大于阈值的为黑色
  for y in range(h):
   for x in range(w):
    if pixdata[x, y] < threshold:
     pixdata[x, y] = 0
    else:
     pixdata[x, y] = 255
  return img
 
 def delete_spot(self):
  images = self.processing_image()
  data = images.getdata()
  w, h = images.size
  black_point = 0
  for x in range(1, w - 1):
   for y in range(1, h - 1):
    mid_pixel = data[w * y + x] # 中央像素点像素值
    if mid_pixel < 50: # 找出上下左右四个方向像素点像素值
     top_pixel = data[w * (y - 1) + x]
     left_pixel = data[w * y + (x - 1)]
     down_pixel = data[w * (y + 1) + x]
     right_pixel = data[w * y + (x + 1)]
     # 判断上下左右的黑色像素点总个数
     if top_pixel < 10:
      black_point += 1
     if left_pixel < 10:
      black_point += 1
     if down_pixel < 10:
      black_point += 1
     if right_pixel < 10:
      black_point += 1
     if black_point < 1:
      images.putpixel((x, y), 255)
     black_point = 0
  # images.show()
  return images
 
 def image_str(self):
  image = self.delete_spot()
  pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe" # 设置pyteseract路径
  result = pytesseract.image_to_string(image) # 图片转文字
  resultj = re.sub(u"([^\u4e00-\u9fa5\u0030-\u0039\u0041-\u005a\u0061-\u007a])", "", result) # 去除识别出来的特殊字符
  result_four = resultj[0:4] # 只获取前4个字符
  # print(resultj) # 打印识别的验证码
  return result_four
 
 
 
if __name__ == '__main__':
 a = VerificationCode()
 a.image_str()

更多关于python识别验证码图片方法请查看下面的相关链接

python识别验证码图片实例详解

- Author -

沉默的鹏先生

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Python中使用pngquant压缩png图片的教程

Apr 09 Python

Python的Django框架安装全攻略

Jul 15 Python

python实现爬虫统计学校BBS男女比例之多线程爬虫（二）

Dec 31 Python

Python 通过pip安装Django详细介绍

Apr 28 Python

Python中使用支持向量机SVM实践

Dec 27 Python

python 爬虫批量获取代理ip的实例代码

May 22 Python

Python高级特性切片(Slice)操作详解

Sep 27 Python

Django框架使用内置方法实现登录功能详解

Jun 12 Python

Python包，__init__.py功能与用法分析

Jan 07 Python

numpy的Fancy Indexing和array比较详解

Jun 11 Python

基于Tensorflow读取MNIST数据集时网络超时的解决方式

Jun 22 Python

Python在后台自动解压各种压缩文件的实现方法

Nov 10 Python

Python pyautogui模块实现鼠标键盘自动化方法详解

Feb 17 #Python

Matplotlib使用字符串代替变量绘制散点图的方法

Feb 17 #Python

关于tf.TFRecordReader()函数的用法解析

Feb 17 #Python

将数据集制作成VOC数据集格式的实例

Feb 17 #Python

将labelme格式数据转化为标准的coco数据集格式方式

Feb 17 #Python

开启Django博客的RSS功能的实现方法

Feb 17 #Python

Python3打包exe代码2种方法实例解析

Feb 17 #Python

You might like

浅析PHP 按位与或 (^ 、&)

2013/06/21 PHP

PHP入门之常量简介和系统常量

2014/05/12 PHP

基于JQuery+PHP编写砸金蛋中奖程序

2015/09/08 PHP

原生JS实现加入收藏夹的代码

2013/10/24 Javascript

javascript数据类型示例分享

2015/01/19 Javascript

js+CSS实现模拟华丽的select控件下拉菜单效果

2015/09/01 Javascript

jQuery实现仿QQ在线客服效果的滚动层代码

2015/10/15 Javascript

jQuery Tags Input Plugin（添加/删除标签插件）详解

2016/06/20 Javascript

ExtJs的Ext.Ajax.request实现waitMsg等待提示效果

2017/06/14 Javascript

vue实现文件上传功能

2018/08/13 Javascript

jQuery 查找元素操作实例小结

2019/10/02 jQuery

JS实现简单tab选项卡切换

2019/10/25 Javascript

Node.js中出现未捕获异常的处理方法

2020/06/29 Javascript

vue 清空input标签中file的值操作

2020/07/21 Javascript

[57:38]2018DOTA2亚洲邀请赛3月30日小组赛A组 OpTic VS OG

2018/03/31 DOTA

教你安装python Django（图文）

2013/11/04 Python

基于进程内通讯的python聊天室实现方法

2015/06/28 Python

Python编程使用tkinter模块实现计算器软件完整代码示例

2017/11/29 Python

Pytorch 抽取vgg各层并进行定制化处理的方法

2019/08/20 Python

Python 矩阵转置的几种方法小结

2019/12/02 Python

Python3.x+迅雷x 自动下载高分电影的实现方法

2020/01/12 Python

Anaconda的安装及其环境变量的配置详解

2020/04/22 Python

Python Pivot table透视表使用方法解析

2020/09/11 Python

python 装饰器的基本使用

2021/01/13 Python

美国最大的万圣节服装网站：HalloweenCostumes.com

2017/10/12 全球购物

高山背包：High Sierra

2017/11/23 全球购物

Emma Bridgewater官网：英国餐具制造商

2019/11/24 全球购物

日本化妆品植村秀俄罗斯官方网站：Shu Uemura俄罗斯

2020/02/01 全球购物

《金色的脚印》教后反思

2014/04/23 职场文书

2014三年级班主任工作总结

2014/12/05 职场文书

防暑降温通知书

2015/04/27 职场文书

教导处教学工作总结

2015/08/12 职场文书

聘任书范文大全

2015/09/21 职场文书

远程教育培训心得体会

2016/01/09 职场文书

德劲DE1102数字调谐收音机机评

2022/04/07 无线电

Java Spring Boot请求方式与请求映射过程分析

2022/06/25 Java/Android