编程 Python

python验证码识别教程之利用投影法、连通域法分割图片

Posted in Python onJune 04, 2018

前言

今天这篇文章主要记录一下如何切分验证码，用到的主要库就是Pillow和Linux下的图像处理工具GIMP。首先假设一个固定位置和宽度、无粘连、无干扰的例子学习一下如何使用Pillow来切割图片。

使用GIMP打开图片后，按加号放大图片，然后点击View->Show Grid来显示网格线：

其中，每个正方形边长为10像素，所以数字1切割坐标为左20、上20、右40、下70。以此类推可以知道剩下3个数字的切割位置。

代码如下：

from PIL import Image
p = Image.open("1.png")
# 注意位置顺序为左、上、右、下
cuts = [(20,20,40,70),(60,20,90,70),(100,10,130,60),(140,20,170,50)]
for i,n in enumerate(cuts,1):
 temp = p.crop(n) # 调用crop函数进行切割
 temp.save("cut%s.png" % i)

切割后得到4张图片：

python验证码识别教程之利用投影法、连通域法分割图片

那么，如果字符位置不固定怎么办呢？现在假设一种随机位置宽度、无粘连、无干扰线的情况。

第一种方法，也是最简单的方法叫做”投影法”。原理就是将二值化后的图片在竖直方向进行投影，根据投影后的极值来判断分割边界。这里我依然使用上面的验证码图片来进行演示：

def vertical(img):
 """传入二值化后的图片进行垂直投影"""
 pixdata = img.load()
 w,h = img.size
 ver_list = []
 # 开始投影
 for x in range(w):
 black = 0
 for y in range(h):
  if pixdata[x,y] == 0:
  black += 1
 ver_list.append(black)
 # 判断边界
 l,r = 0,0
 flag = False
 cuts = []
 for i,count in enumerate(ver_list):
 # 阈值这里为0
 if flag is False and count > 0:
  l = i
  flag = True
 if flag and count == 0:
  r = i-1
  flag = False
  cuts.append((l,r))
 return cuts

p = Image.open('1.png')
b_img = binarizing(p,200)
v = vertical(b_img)

通过vertical函数我们就得到了一个包含所有黑色像素在X轴上投影后左右边界的位置。由于验证码没有任何干扰，所以我的阈值设定为0。关于binarizing函数可以参考上一篇文章

输出如下：

[(21, 37), (62, 89), (100, 122), (146, 164)]

可以看到，投影法给出左右边界和我们手工查看得到很接近。对于上下边界，偷懒的可以直接使用0和图片的高度，也可以在水平方向进行投影，这里有兴趣的小伙伴可以自己尝试。

但是，对于字符间有粘连的情况，投影法就会出现拆分错误，比如上篇文章中的：

python验证码识别教程之利用投影法、连通域法分割图片

修改阈值为5后，投影法给出的左右边界是：

[(5, 27), (33, 53), (59, 108)]

明显最后的6和9数字没有切割。

修改阈值为7，结果则是：

[(5, 27), (33, 53), (60, 79), (83, 108)]

所以对于简单粘连的情况，调整阈值也是可以解决的。

第二种方法，叫做CFS连通域分割法。原理就是假定每个字符都由一个单独的连通域组成，换言之就是无粘连，找到一个黑色像素并开始判断，直到所有相连的黑色像素都被遍历标记过后即可判断出这个字符的分割位置。算法如下：

将二值化后的图片进行从左到右、从上到下的遍历，如果遇到黑色像素并且这个像素没有没访问过，就将这个像素入栈并标记为已经访问。
如果栈不为空，则继续探测周围8个像素，并执行第2步；如果栈空，则代表探测完了一个字符块。
探测结束，这样就确定了若干字符。

代码如下：

import queue

def cfs(img):
 """传入二值化后的图片进行连通域分割"""
 pixdata = img.load()
 w,h = img.size
 visited = set()
 q = queue.Queue()
 offset = [(-1,-1),(0,-1),(1,-1),(-1,0),(1,0),(-1,1),(0,1),(1,1)]
 cuts = []
 for x in range(w):
  for y in range(h):
   x_axis = []
   #y_axis = []
   if pixdata[x,y] == 0 and (x,y) not in visited:
    q.put((x,y))
    visited.add((x,y))
   while not q.empty():
    x_p,y_p = q.get()
    for x_offset,y_offset in offset:
     x_c,y_c = x_p+x_offset,y_p+y_offset
     if (x_c,y_c) in visited:
      continue
     visited.add((x_c,y_c))
     try:
      if pixdata[x_c,y_c] == 0:
       q.put((x_c,y_c))
       x_axis.append(x_c)
       #y_axis.append(y_c)
     except:
      pass
   if x_axis:
    min_x,max_x = min(x_axis),max(x_axis)
    if max_x - min_x > 3:
     # 宽度小于3的认为是噪点，根据需要修改
     cuts.append((min_x,max_x))
 return cuts

调用后输出结果和使用投影法是一样的。另外我看网上还有一种叫做“泛洪填充(Flood Fill)”的方法，似乎和连通域是一样的。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对三水点靠木的支持。

python验证码识别教程之利用投影法、连通域法分割图片

- Author -

Hi!Roy!

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现单词翻译功能

Jun 06 Python

使用Python实现博客上进行自动翻页

Aug 23 Python

python数据分析数据标准化及离散化详解

Feb 26 Python

PyQt5每天必学之像素图控件QPixmap

Apr 19 Python

python 通过字符串调用对象属性或方法的实例讲解

Apr 21 Python

使用pycharm生成代码模板的实例

May 23 Python

python实现决策树分类

Aug 30 Python

python利用selenium进行浏览器爬虫

Apr 25 Python

linux下安装python3和对应的pip环境教程详解

Jul 01 Python

Django实现简单网页弹出警告代码

Nov 15 Python

学生如何注册Pycharm专业版以及pycharm的安装

Sep 24 Python

Python模拟登录requests.Session应用详解

Nov 17 Python

python验证码识别教程之灰度处理、二值化、降噪与tesserocr识别

Jun 04 #Python

实用自动化运维Python脚本分享

Jun 04 #Python

python中验证码连通域分割的方法详解

Jun 04 #Python

python 匹配url中是否存在IP地址的方法

Jun 04 #Python

Python实现ping指定IP的示例

Jun 04 #Python

用Python3创建httpServer的简单方法

Jun 04 #Python

Python3之简单搭建自带服务器的实例讲解

Jun 04 #Python

You might like

php中使用redis队列操作实例代码

2013/02/07 PHP

PHP与Java进行通信的实现方法

2013/10/21 PHP

PHP使用第三方即时获取物流动态实例详解

2017/04/27 PHP

php统计数组不同元素的个数的实例方法

2019/09/26 PHP

jquery 插件人性化的消息显示

2008/01/21 Javascript

JavaScript 验证浏览器是否支持javascript的方法小结

2009/05/17 Javascript

JS、CSS以及img对DOMContentLoaded事件的影响

2014/08/12 Javascript

jQuery带箭头提示框tooltips插件集锦

2014/11/17 Javascript

快速掌握jQuery插件WebUploader文件上传

2016/11/07 Javascript

jQuery实现弹窗居中效果类似alert()

2017/02/27 Javascript

vue结合axios与后端进行ajax交互的方法

2018/07/06 Javascript

解决JavaScript layui 下拉框不显示的问题

2018/08/14 Javascript

Python中属性和描述符的正确使用

2016/08/23 Python

Python基于回溯法子集树模板解决旅行商问题（TSP）实例

2017/09/05 Python

python中is与双等于号“==”的区别示例详解

2017/11/21 Python

浅析python实现scrapy定时执行爬虫

2018/03/04 Python

python实现微信机器人：登录微信、消息接收、自动回复功能

2019/04/29 Python

Python3.5局部变量与全局变量作用域实例分析

2019/04/30 Python

python 消除 futureWarning问题的解决

2019/12/25 Python

Numpy之reshape()使用详解

2019/12/26 Python

Python 模拟生成动态产生验证码图片的方法

2020/02/01 Python

Python中常见的数制转换有哪些

2020/05/27 Python

Python切片列表字符串如何实现切换

2020/08/06 Python

详解python tkinter 图片插入问题

2020/09/03 Python

世界第一曲奇连锁店：Mrs. Fields Cookies

2017/02/04 全球购物

Ruby如何实现动态方法调用

2012/11/18 面试题

医学院四年学习生活的自我评价

2013/11/06 职场文书

学生会招新策划书

2014/02/14 职场文书

学雷锋志愿者活动方案

2014/08/21 职场文书

小学关爱留守儿童活动方案

2014/08/25 职场文书

工作证明格式及范本

2014/09/12 职场文书

2014年商场工作总结

2014/11/22 职场文书

2015年乡镇工作总结范文

2015/04/22 职场文书

廉政承诺书2015

2015/04/28 职场文书

基于Java的MathML转图片的方法(示例代码)

2021/06/23 Java/Android

JS class语法糖的深入剖析

2022/07/07 Javascript