编程 Python

python验证码识别的示例代码

Posted in Python onSeptember 21, 2017

写爬虫有一个绕不过去的问题就是验证码，现在验证码分类大概有4种：

图像类
滑动类
点击类
语音类

今天先来看看图像类，这类验证码大多是数字、字母的组合，国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。

相应的，验证码识别大体可以分为下面几个步骤：

灰度处理
增加对比度(可选)
二值化
降噪
倾斜校正分割字符
建立训练库
识别

由于是实验性质的，文中用到的验证码均为程序生成而不是批量下载真实的网站验证码，这样做的好处就是可以有大量的知道明确结果的数据集。

当需要真实环境下需要获取数据时，可以使用结合各个大码平台来建立数据集进行训练。

生成验证码这里我使用Claptcha这个库，当然Captcha这个库也是个不错的选择。

为了生成最简单的纯数字、无干扰的验证码，首先需要将claptcha.py的285行_drawLine做一些修改，我直接让这个函数返回None，然后开始生成验证码：

from claptcha import Claptcha
c = Claptcha("8069","/usr/share/fonts/truetype/freefont/FreeMono.ttf")
t,_ = c.write('1.png')

这里需要注意ubuntu的字体路径，也可以在网上下载其他字体使用。生成验证码如下：

python验证码识别的示例代码

可以看出，验证码有形变。对于这类最简单的验证码，可以直接使用谷歌开源的tesserocr来识别。

首先安装：

apt-get install tesseract-ocr libtesseract-dev libleptonica-dev
pip install tesserocr

然后开始识别：

from PIL import Image
import tesserocr
p1 = Image.open('1.png')
tesserocr.image_to_text(p1)
'8069\n\n'

可以看出，对于这种简单的验证码，基本什么都不做识别率就已经很高了。有兴趣的小伙伴可以用更多的数据来测试，这里我就不展开了。

接下来，在验证码背景添加噪点来看看：

c = Claptcha("8069","/usr/share/fonts/truetype/freefont/FreeMono.ttf",noise=0.4)
t,_ = c.write('2.png')

生成验证码如下：

python验证码识别的示例代码

识别：

p2 = Image.open('2.png')
tesserocr.image_to_text(p2)
'8069\n\n'

效果还可以。接下来生成一个字母数字组合的：

c2 = Claptcha("A4oO0zZ2","/usr/share/fonts/truetype/freefont/FreeMono.ttf")
t,_ = c2.write('3.png')

生成验证码如下：

python验证码识别的示例代码

第3个为小写字母o，第4个为大写字母O，第5个为数字0，第6个为小写字母z，第7个为大写字母Z，最后一个是数字2。人眼已经跪了有木有！但现在一般验证码对大小写是不做严格区分的，看自动识别什么样吧：

p3 = Image.open('3.png')
tesserocr.image_to_text(p3)
'AMOOZW\n\n'

人眼都跪的计算机当然也废了。但是，对于一些干扰小、形变不严重的，使用tesserocr还是十分简单方便的。然后将修改的claptcha.py的285行_drawLine还原，看添加干扰线的情况。

python验证码识别的示例代码

p4 = Image.open('4.png')
tesserocr.image_to_text(p4)

加了条干扰线就完全识别不出来了，那么有没有什么办法去除干扰线呢？

虽然图片看上去是黑白的，但还需要进行灰度处理，否则使用load()函数得到的是某个像素点的RGB元组而不是单一值了。处理如下：

def binarizing(img,threshold):
 """传入image对象进行灰度、二值处理"""
 img = img.convert("L") # 转灰度
 pixdata = img.load()
 w, h = img.size
 # 遍历所有像素，大于阈值的为黑色
 for y in range(h):
  for x in range(w):
   if pixdata[x, y] < threshold:
    pixdata[x, y] = 0
   else:
    pixdata[x, y] = 255
 return img

处理后的图片如下：

python验证码识别的示例代码

可以看出处理后图片锐化了很多，接下来尝试去除干扰线，常见的4邻域、8邻域算法。所谓的X邻域算法，可以参考手机九宫格输入法，按键5为要判断的像素点，4邻域就是判断上下左右，8邻域就是判断周围8个像素点。如果这4或8个点中255的个数大于某个阈值则判断这个点为噪音，阈值可以根据实际情况修改。

def depoint(img):
 """传入二值化后的图片进行降噪"""
 pixdata = img.load()
 w,h = img.size
 for y in range(1,h-1):
  for x in range(1,w-1):
   count = 0
   if pixdata[x,y-1] > 245:#上
    count = count + 1
   if pixdata[x,y+1] > 245:#下
    count = count + 1
   if pixdata[x-1,y] > 245:#左
    count = count + 1
   if pixdata[x+1,y] > 245:#右
    count = count + 1
   if pixdata[x-1,y-1] > 245:#左上
    count = count + 1
   if pixdata[x-1,y+1] > 245:#左下
    count = count + 1
   if pixdata[x+1,y-1] > 245:#右上
    count = count + 1
   if pixdata[x+1,y+1] > 245:#右下
    count = count + 1
   if count > 4:
    pixdata[x,y] = 255
 return img

处理后的图片如下：

python验证码识别的示例代码

好像……根本没卵用啊？！确实是这样的，因为示例中的图片干扰线的宽度和数字是一样的。对于干扰线和数据像素不同的，比如Captcha生成的验证码：

python验证码识别的示例代码

从左到右依次是原图、二值化、去除干扰线的情况，总体降噪的效果还是比较明显的。另外降噪可以多次执行，比如我对上面的降噪后结果再进行依次降噪，可以得到下面的效果：

python验证码识别的示例代码

再进行识别得到了结果：

p7 = Image.open('7.png')
tesserocr.image_to_text(p7)
'8069 ,,\n\n'

另外，从图片来看，实际数据颜色明显和噪点干扰线不同，根据这一点可以直接把噪点全部去除，这里就不展开说了。

第一篇文章，先记录如何将图片进行灰度处理、二值化、降噪，并结合tesserocr来识别简单的验证码，剩下的部分在下一篇文章中和大家一起分享。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python验证码识别的示例代码

- Author -

Hi!Roy!

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用Python3编写抓取网页和只抓网页图片的脚本

Aug 20 Python

解决uWSGI的编码问题详解

Mar 24 Python

Python装饰器(decorator)定义与用法详解

Feb 09 Python

对Python3中的print函数以及与python2的对比分析

May 02 Python

解决PySide+Python子线程更新UI线程的问题

Jan 11 Python

详解Python传入参数的几种方法

May 16 Python

利用python实现AR教程

Nov 20 Python

Django创建一个后台的基本步骤记录

Oct 02 Python

Python实现Telnet自动连接检测密码的示例

Apr 16 Python

pytorch 一行代码查看网络参数总量的实现

May 12 Python

Python快速优雅的批量修改Word文档样式

May 20 Python

python 中的@运算符使用

May 26 Python

Python优先队列实现方法示例

Sep 21 #Python

python虚拟环境virtualenv的安装与使用

Sep 21 #Python

基于python socketserver框架全面解析

Sep 21 #Python

基于python select.select模块通信的实例讲解

Sep 21 #Python

Python实现小数转化为百分数的格式化输出方法示例

Sep 20 #Python

Python实现字符串格式化输出的方法详解

Sep 20 #Python

Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录

Sep 20 #Python

You might like

php中explode的负数limit用法分析

2015/02/27 PHP

php array_chunk()函数用法与注意事项

2019/07/12 PHP

JS控件autocomplete 0.11演示及下载 1月5日已更新

2007/01/09 Javascript

JS批量操作CSS属性详细解析

2013/12/16 Javascript

调用HttpHanlder的几种返回方式小结

2013/12/20 Javascript

你未必知道的JavaScript和CSS交互的5种方法

2014/04/02 Javascript

jQuery EasyUI菜单与按钮详解

2016/07/13 Javascript

使用Ajax与服务器（JSON）通信实例

2016/11/04 Javascript

bootstrap侧边栏圆点导航

2017/01/11 Javascript

微信小程序开发经验整理

2017/02/15 Javascript

写jQuery插件时的注意点

2017/02/20 Javascript

angular中的http拦截器Interceptors的实现

2017/02/21 Javascript

jQuery实现checkbox即点即改批量删除及中间遇到的坑

2017/11/11 jQuery

Bootstrap table 服务器端分页功能实现方法示例

2020/06/01 Javascript

[03:17]2016完美“圣”典风云人物：冷冷专访

2016/12/08 DOTA

Python编程中运用闭包时所需要注意的一些地方

2015/05/02 Python

如何利用Fabric自动化你的任务

2016/10/20 Python

浅谈pycharm的xmx和xms设置方法

2018/12/03 Python

基于python二叉树的构造和打印例子

2019/08/09 Python

python网络编程之多线程同时接受和发送

2019/09/03 Python

Python环境Pillow( PIL )图像处理工具使用解析

2019/09/12 Python

Pytorch 多维数组运算过程的索引处理方式

2019/12/27 Python

python在不同条件下的输入与输出

2020/02/13 Python

用python介绍4种常用的单链表翻转的方法小结

2020/02/24 Python

Python实现Keras搭建神经网络训练分类模型教程

2020/06/12 Python

Python logging日志模块配置文件方式

2020/07/12 Python

一文带你掌握Pyecharts地理数据可视化的方法

2021/02/06 Python

草莓网化妆品加拿大网站：Strawberrynet Canada

2016/09/20 全球购物

Hotels.com香港酒店网：你的自由行酒店订房专家

2018/01/22 全球购物

美体小铺法国官方网站：The Body Shop法国

2020/06/04 全球购物

九年级数学教学反思

2014/02/02 职场文书

优秀家长事迹材料

2014/05/17 职场文书

小学母亲节活动总结

2015/02/10 职场文书

您对思维方式了解多少？

2019/12/09 职场文书

你真的了解PHP中的引用符号(&)吗

2021/05/12 PHP

如何在CSS中绘制曲线图形及展示动画

2021/05/24 HTML / CSS