编程 Python

Python3使用tesserocr识别字母数字验证码的实现

Posted in Python onJanuary 29, 2021

一、背景

最近有个需求是从一个后台的留言网站爬取留言数据，后台管理网站必然涉及到了登录，登录就有个验证码的问题必须得解决，由于验证码是从后端生成的，并且不了解其生成规则，那就只能通过图像识别技术来做验证码识别了！通过查阅资料发现Python中的的tesserocr这个库好像使用的比较多，所以对这个库进行了一番研究，并且实现了那个后台网站验证码的识别。

二、准备工作

1. 安装tesserocr

由于我使用的Python版本是python3.5，所以一下所有操作都是基于python3的，如果有python2的同学，可以找找其他教程~~

首先需要下载tesseract，它为tesserocr提供底层支持。具体下载官方路径：https://github.com/UB-Mannheim/tesseract/wiki，选择对应的系统版本，可以选择一个相对不带dev的稳定版本下载，如：tesseract-ocr-setup-3.05.02-20180621.exe。然后一路安装，唯一记得勾选Additional language data（download），勾选可能会用到的语言tessdata，如简体、繁体中文，数学模块等，不需要全选，下载tessdata的时间会比较长。

然后安装python3对应的tesserocr库，通常我们安装库的方法是使用命令pip install tesserocr，但是这里会报错：“error: Microsoft Visual C++ 14.0 is required. Get it with "Microsoft Visual C++ Build Tools",这个时候不宜直接去下载Microsoft Visual C++ Build Tools，而是使用原始的whl文件方式安装。tesserocr 的whl官方文件下载路径：https://github.com/simonflueckiger/tesserocr-windows_build/releases，下载本地环境对应的whl文件，如我的是window64位系统，python版本是3.5。下载完后，使用cd跳转到whl文件所在目录，然后执行 ”pip installtesserocr-2.2.2-cp35-cp35m-win_amd64.whl“，即可轻松完成安装。

Python3使用tesserocr识别字母数字验证码的实现

紧接着用例子验证如何使用：我们找到一个验证码图片：image.jpg，下载到本地磁盘，用代码进行验证：

import tesserocr
from PIL import Image
image=Image.open('image.jpg')
print(tesserocr.image_to_text(image))

不出意外，首次运行总是不顺利，相信我遇到的坑大多数人都会遇到，大抵错误类似：

Traceback (most recent call last):
File "G:\pythonSources\my12306/obtain_message\test.py", line 4, in <module>
print(tesserocr.image_to_text(image))
File "tesserocr.pyx", line 2400, in tesserocr._tesserocr.image_to_text
RuntimeError: Failed to init API, possibly an invalid tessdata path: “本地某个路径”

有个比较简单粗暴的解决方法是把安装好的Tesseract-OCR下的tessdata文件夹整个拷贝到提示的那个路径中，亲测有效。

2. 安装opencv

由于验证码需要做一些优化处理，方便更加容易被tesserocr识别，所以需要使用opencv来做一些特殊的处理，安装opencv比较简单，直接pip install opencv-python即可。

三、识别过程

1. 将图片变成黑白图片

我需要爬取数据的这个后台网站验证码是黄底白字的，这种色差较小的tesserocr识别起来比较困难，稍微试了一下，基本上没怎么识别对过。。。所以我们需要先将图片变成色差最大的黑白图片。初始图片见下图：

Python3使用tesserocr识别字母数字验证码的实现

首先，将图片变成灰色，并将灰色图片保存起来方便后续做对比，变成灰色以后的图片如下：

Python3使用tesserocr识别字母数字验证码的实现

变成灰色后，通过像素点的颜色值将灰色部分的背景变成白色，白色的具体内容变成黑色，这样白底黑字的黑白图片就有了：

Python3使用tesserocr识别字母数字验证码的实现

处理成黑白图片的实现代码如下：

img = Image.open(self.code_path)
# 将图片变成灰色
img_gray = img.convert('L')
img_gray.save('../images/code_gray.png')
# 转成黑白图片
img_black_white = img_gray.point(lambda x: 0 if x > 200 else 255)
img_black_white.save('../images/code_black_white.png')

2. 去除图片噪点

图片转成黑白以后，一些杂点也随着我们的主体内容变成了黑色的点，这样对识别的效果也有较大的影响，所以需要想办法将这些干扰点去掉。这里就需要借助opencv的功能了，在使用opencv去除噪点之前，需要先将图片做灰值化以及二值化处理，具体代码如下所示：

# opencv处理
img_cv = cv2.imread('../images/code_black_white.png')
# 灰值化
im = cv2.cvtColor(img_cv, cv2.COLOR_BGR2GRAY)
# 二值化
cv2.adaptiveThreshold(im, 255, cv2.ADAPTIVE_THRESH_GAUSSIAN_C, cv2.THRESH_BINARY, 21, 1)

基本处理之后，就需要消除噪点了，消除噪点的原理也比较简单，就是遍历图片的每一个像素点，找到其上下左右四个像素点位置的颜色，如果这四个点中白色点的数量大于2则说明这个点是噪点，需要将该点的颜色直接置为白色点，在边框位置的像素点也直接置为白色，因为主要内容一般都是在图片中间的。以下为处理噪点的代码：

# 噪点处理
def interference_point(img):
  filename = '../images/code_result.png'
  h, w = img.shape[:2]
  # 遍历像素点进行处理
  for y in range(0, w):
    for x in range(0, h):
      # 去掉边框上的点
      if y == 0 or y == w - 1 or x == 0 or x == h - 1:
        img[x, y] = 255
        continue
      count = 0
      if img[x, y - 1] == 255:
        count += 1
      if img[x, y + 1] == 255:
        count += 1
      if img[x - 1, y] == 255:
        count += 1
      if img[x + 1, y] == 255:
        count += 1
      if count > 2:
        img[x, y] = 255
  cv2.imwrite(filename, img)
  return img, filename

噪点处理完毕之后，就是一张非常清晰的图片了：

Python3使用tesserocr识别字母数字验证码的实现

这个时候就可以直接使用tesserocr来识别了，具体识别的方式如下：

tesserocr.image_to_text(img_result)

识别测试结果如下：

Python3使用tesserocr识别字母数字验证码的实现

经过多次识别验证测试，另外也由于这个验证码的字体相对比较规范，所以成功率是相当的高了，即使偶尔的一次失败，我们也是可以进行重试就又成功了。哈哈，差不多就是这个样子啦，欢迎大家指正文中的问题~~不多说了，我要去使用新学的技术去做“坏事”了！

到此这篇关于Python3使用tesserocr识别字母数字验证码的实现的文章就介绍到这了,更多相关Python3 tesserocr识别字母数字验证码内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python3使用tesserocr识别字母数字验证码的实现

- Author -

不知道取什么名的鬼鬼

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python数据结构之二叉树的统计与转换实例

Apr 29 Python

python3新特性函数注释Function Annotations用法分析

Jul 28 Python

Python学习思维导图(必看篇)

Jun 26 Python

python3基于TCP实现CS架构文件传输

Jul 28 Python

opencv python 基于KNN的手写体识别的实例

Aug 03 Python

python用match()函数爬数据方法详解

Jul 23 Python

Django 拆分model和view的实现方法

Aug 16 Python

FFrpc python客户端lib使用解析

Aug 24 Python

Python3离线安装Requests模块问题

Oct 13 Python

python selenium 获取接口数据的实现

Dec 07 Python

详解python中的异常和文件读写

Jan 03 Python

Django实现翻页的示例代码

May 24 Python

Python爬取梨视频的示例

Jan 29 #Python

使用Python封装excel操作指南

Jan 29 #Python

用OpenCV进行年龄和性别检测的实现示例

Jan 29 #Python

python使用numpy中的size()函数实例用法详解

Jan 29 #Python

Python机器学习工具scikit-learn的使用笔记

Jan 28 #Python

K近邻法(KNN)相关知识总结以及如何用python实现

Jan 28 #Python

Python3中对json格式数据的分析处理

Jan 28 #Python

You might like

PHP-CGI进程CPU 100% 与 file_get_contents 函数的关系分析

2011/08/15 PHP

PHP生成数组再传给js的方法

2014/08/07 PHP

PHP实现动态柱状图改进版

2015/03/30 PHP

PHP实现在数据库百万条数据中随机获取20条记录的方法

2017/04/19 PHP

php下载远程大文件(获取远程文件大小)的实例

2017/06/17 PHP

php中try catch捕获异常实例详解

2020/08/06 PHP

ThinkPHP5分页paginate代码实例解析

2020/11/10 PHP

js中几种去掉字串左右空格的方法

2006/12/25 Javascript

js 单引号传递方法

2009/06/22 Javascript

javascript学习基础笔记之DOM对象操作

2011/11/03 Javascript

easyui Droppable组件实现放置特效

2015/08/19 Javascript

js获取本机操作系统类型的两种方法

2015/12/19 Javascript

javascript类型系统——日期Date对象全面了解

2016/07/13 Javascript

原生js仿jquery一些常用方法(必看篇)

2016/09/20 Javascript

关于ES6的六个小特性（二）

2017/02/20 Javascript

基于Jquery Ajax type的4种类型(详解)

2017/08/02 jQuery

详解vue-cli与webpack结合如何处理静态资源

2017/09/19 Javascript

Javascript中将变量转换为字符串的三种方法

2017/09/19 Javascript

node.js中TCP Socket多进程间的消息推送示例详解

2018/07/10 Javascript

微信小程序实现人脸识别登陆的示例代码

2019/04/02 Javascript

JavaScript 浏览器对象模型BOM原理与常见用法实例分析

2019/12/16 Javascript

微信小程序实现树莓派（raspberry pi）小车控制

2020/02/12 Javascript

详解Vue 单文件组件的三种写法

2020/02/19 Javascript

Python3控制路由器——使用requests重启极路由.py

2016/05/11 Python

python实现机器学习之元线性回归

2018/09/06 Python

python+flask实现API的方法

2018/11/21 Python

python格式化输出保留2位小数的实现方法

2019/07/02 Python

Python ckeditor富文本编辑器代码实例解析

2020/06/22 Python

python能做哪些生活有趣的事情

2020/09/09 Python

CSS3田字格列表的样式编写方法

2018/11/22 HTML / CSS

html+css实现自定义图片上传按钮功能

2019/09/04 HTML / CSS

Fabletics官网：美国运动服饰品牌，由好莱坞女演员凯特·哈德森创立

2019/10/19 全球购物

幼儿园师德师风学习材料

2014/05/29 职场文书

全国法制宣传日活动总结

2015/05/05 职场文书

职场新人刚入职工作总结该怎么写？

2019/05/15 职场文书

SSM VUE Axios详解

2021/10/05 Vue.js