python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别


Posted in Python onJune 04, 2018

前言

写爬虫有一个绕不过去的问题就是验证码,现在验证码分类大概有4种:

  1. 图像类
  2. 滑动类
  3. 点击类
  4. 语音类

今天先来看看图像类,这类验证码大多是数字、字母的组合,国内也有使用汉字的。在这个基础上增加噪点、干扰线、变形、重叠、不同字体颜色等方法来增加识别难度。

相应的,验证码识别大体可以分为下面几个步骤:

  1. 灰度处理
  2. 增加对比度(可选)
  3. 二值化
  4. 降噪
  5. 倾斜校正分割字符
  6. 建立训练库
  7. 识别

由于是实验性质的,文中用到的验证码均为程序生成而不是批量下载真实的网站验证码,这样做的好处就是可以有大量的知道明确结果的数据集。

当需要真实环境下需要获取数据时,可以使用结合各个大码平台来建立数据集进行训练。

生成验证码这里我使用Claptcha (本地下载)这个库,当然Captcha(本地下载)这个库也是个不错的选择。

为了生成最简单的纯数字、无干扰的验证码,首先需要将claptcha.py的285行_drawLine做一些修改,我直接让这个函数返回None,然后开始生成验证码:

from claptcha import Claptcha

c = Claptcha("8069","/usr/share/fonts/truetype/freefont/FreeMono.ttf")
t,_ = c.write('1.png')

这里需要注意ubuntu的字体路径,也可以在网上下载其他字体使用。生成验证码如下:

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

可以看出,验证码有形变。对于这类最简单的验证码,可以直接使用谷歌开源的tesserocr来识别。

首先安装:

apt-get install tesseract-ocr libtesseract-dev libleptonica-dev
pip install tesserocr

然后开始识别:

from PIL import Image
import tesserocr

p1 = Image.open('1.png')
tesserocr.image_to_text(p1)

'8069\n\n'

可以看出,对于这种简单的验证码,基本什么都不做识别率就已经很高了。有兴趣的小伙伴可以用更多的数据来测试,这里我就不展开了。

接下来,在验证码背景添加噪点来看看:

c = Claptcha("8069","/usr/share/fonts/truetype/freefont/FreeMono.ttf",noise=0.4)
t,_ = c.write('2.png')

生成验证码如下:

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

识别:

p2 = Image.open('2.png')
tesserocr.image_to_text(p2)
'8069\n\n'

效果还可以。接下来生成一个字母数字组合的:

c2 = Claptcha("A4oO0zZ2","/usr/share/fonts/truetype/freefont/FreeMono.ttf")
t,_ = c2.write('3.png')

生成验证码如下:

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

第3个为小写字母o,第4个为大写字母O,第5个为数字0,第6个为小写字母z,第7个为大写字母Z,最后一个是数字2。人眼已经跪了有木有!但现在一般验证码对大小写是不做严格区分的,看自动识别什么样吧:

p3 = Image.open('3.png')
tesserocr.image_to_text(p3)
'AMOOZW\n\n'

人眼都跪的计算机当然也废了。但是,对于一些干扰小、形变不严重的,使用tesserocr还是十分简单方便的。然后将修改的claptcha.py的285行_drawLine还原,看添加干扰线的情况。

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

p4 = Image.open('4.png')
tesserocr.image_to_text(p4)
''

加了条干扰线就完全识别不出来了,那么有没有什么办法去除干扰线呢?

虽然图片看上去是黑白的,但还需要进行灰度处理,否则使用load()函数得到的是某个像素点的RGB元组而不是单一值了。处理如下:

def binarizing(img,threshold):
 """传入image对象进行灰度、二值处理"""
 img = img.convert("L") # 转灰度
 pixdata = img.load()
 w, h = img.size
 # 遍历所有像素,大于阈值的为黑色
 for y in range(h):
  for x in range(w):
   if pixdata[x, y] < threshold:
    pixdata[x, y] = 0
   else:
    pixdata[x, y] = 255
 return img

处理后的图片如下:

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

可以看出处理后图片锐化了很多,接下来尝试去除干扰线,常见的4邻域、8邻域算法。所谓的X邻域算法,可以参考手机九宫格输入法,按键5为要判断的像素点,4邻域就是判断上下左右,8邻域就是判断周围8个像素点。如果这4或8个点中255的个数大于某个阈值则判断这个点为噪音,阈值可以根据实际情况修改。

def depoint(img):
 """传入二值化后的图片进行降噪"""
 pixdata = img.load()
 w,h = img.size
 for y in range(1,h-1):
  for x in range(1,w-1):
   count = 0
   if pixdata[x,y-1] > 245:#上
    count = count + 1
   if pixdata[x,y+1] > 245:#下
    count = count + 1
   if pixdata[x-1,y] > 245:#左
    count = count + 1
   if pixdata[x+1,y] > 245:#右
    count = count + 1
   if pixdata[x-1,y-1] > 245:#左上
    count = count + 1
   if pixdata[x-1,y+1] > 245:#左下
    count = count + 1
   if pixdata[x+1,y-1] > 245:#右上
    count = count + 1
   if pixdata[x+1,y+1] > 245:#右下
    count = count + 1
   if count > 4:
    pixdata[x,y] = 255
 return img

处理后的图片如下:

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

好像……根本没卵用啊?!确实是这样的,因为示例中的图片干扰线的宽度和数字是一样的。对于干扰线和数据像素不同的,比如Captcha生成的验证码:

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

从左到右依次是原图、二值化、去除干扰线的情况,总体降噪的效果还是比较明显的。另外降噪可以多次执行,比如我对上面的降噪后结果再进行依次降噪,可以得到下面的效果:

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

再进行识别得到了结果:

p7 = Image.open('7.png')
tesserocr.image_to_text(p7)
'8069 ,,\n\n'

另外,从图片来看,实际数据颜色明显和噪点干扰线不同,根据这一点可以直接把噪点全部去除,这里就不展开说了。
第一篇文章,先记录如何将图片进行灰度处理、二值化、降噪,并结合tesserocr来识别简单的验证码,剩下的部分在下一篇文章中和大家一起分享。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对三水点靠木的支持。

Python 相关文章推荐
python字符串替换示例
Apr 24 Python
网红编程语言Python将纳入高考你怎么看?
Jun 07 Python
Python+selenium 获取浏览器窗口坐标、句柄的方法
Oct 14 Python
Django中使用极验Geetest滑动验证码过程解析
Jul 31 Python
Django发送邮件功能实例详解
Sep 02 Python
用python画一只可爱的皮卡丘实例
Nov 21 Python
基于Tensorflow批量数据的输入实现方式
Feb 05 Python
浅谈tensorflow 中tf.concat()的使用
Feb 07 Python
Python unittest工作原理和使用过程解析
Feb 24 Python
python实现时间序列自相关图(acf)、偏自相关图(pacf)教程
Jun 03 Python
python中tkinter窗口位置\坐标\大小等实现示例
Jul 09 Python
Django通过设置CORS解决跨域问题
Nov 26 Python
实用自动化运维Python脚本分享
Jun 04 #Python
python中验证码连通域分割的方法详解
Jun 04 #Python
python 匹配url中是否存在IP地址的方法
Jun 04 #Python
Python实现ping指定IP的示例
Jun 04 #Python
用Python3创建httpServer的简单方法
Jun 04 #Python
Python3之简单搭建自带服务器的实例讲解
Jun 04 #Python
Python闭包执行时值的传递方式实例分析
Jun 04 #Python
You might like
PHP下用rmdir实现删除目录的三种方法小结
2008/04/20 PHP
php中比较简单的导入phpmyadmin生成的sql文件的方法
2011/06/28 PHP
基于PHP开发中的安全防范知识详解
2013/06/06 PHP
PHP使用GIFEncoder类生成gif动态滚动字幕
2014/07/01 PHP
Symfony2获取web目录绝对路径、相对路径、网址的方法
2016/11/14 PHP
PHP实现的贪婪算法实例
2017/10/17 PHP
phpstudy的php版本自由修改的方法
2017/10/18 PHP
laravel框架select2多选插件初始化默认选中项操作示例
2020/02/18 PHP
浅谈PHP之ThinkPHP框架使用详解
2020/07/21 PHP
基于jquery的给文章加入关键字链接
2010/10/26 Javascript
Javascript事件热键兼容ie|firefox
2010/12/30 Javascript
JS中动态添加事件(绑定事件)的代码
2011/01/09 Javascript
js onload事件不起作用示例分析
2013/10/09 Javascript
AngularJS 路由详解和简单实例
2016/07/28 Javascript
jQuery实现ajax的叠加和停止(终止ajax请求)
2016/08/08 Javascript
基于angular中的重要指令详解($eval,$parse和$compile)
2016/10/21 Javascript
jquery组件WebUploader文件上传用法详解
2020/10/23 Javascript
JavaScript 中使用 Generator的方法
2017/12/29 Javascript
[52:27]2018DOTA2亚洲邀请赛 3.31 小组赛B组 paiN vs Secret
2018/04/01 DOTA
python多线程抓取天涯帖子内容示例
2014/04/03 Python
python轻松实现代码编码格式转换
2015/03/26 Python
Python内置的HTTP协议服务器SimpleHTTPServer使用指南
2016/03/30 Python
Python3.5编程实现修改IIS WEB.CONFIG的方法示例
2017/08/18 Python
python 多线程对post请求服务器测试并发的方法
2019/06/13 Python
sklearn线性逻辑回归和非线性逻辑回归的实现
2020/06/09 Python
ProBikeKit澳大利亚:自行车套件,跑步和铁人三项装备
2016/11/30 全球购物
小学一年级评语大全
2014/04/22 职场文书
奉献演讲稿范文
2014/05/21 职场文书
合同意向书范本
2014/07/30 职场文书
高中毕业典礼演讲稿
2014/09/09 职场文书
农村党支部书记司法四风问题对照检查材料
2014/09/26 职场文书
委托培训协议书
2014/11/17 职场文书
2014年质量管理工作总结
2014/12/01 职场文书
六一儿童节开幕词
2015/01/29 职场文书
如何用python清洗文件中的数据
2021/06/18 Python
python数字图像处理之对比度与亮度调整示例
2022/06/28 Python