编程 Python

利用Python破解验证码实例详解

Posted in Python onDecember 08, 2016

一、前言

本实验将通过一个简单的例子来讲解破解验证码的原理，将学习和实践以下知识点：

Python基本知识

PIL模块的使用

二、实例详解

安装 pillow（PIL）库：

$ sudo apt-get update

$ sudo apt-get install python-dev

$ sudo apt-get install libtiff5-dev libjpeg8-dev zlib1g-dev \
libfreetype6-dev liblcms2-dev libwebp-dev tcl8.6-dev tk8.6-dev python-tk

$ sudo pip install pillow

下载实验用的文件：

$ wget http://labfile.oss.aliyuncs.com/courses/364/python_captcha.zip
$ unzip python_captcha.zip
$ cd python_captcha

这是我们实验使用的验证码 captcha.gif

利用Python破解验证码实例详解

提取文本图片

在工作目录下新建 crack.py 文件，进行编辑。

#-*- coding:utf8 -*-
from PIL import Image

im = Image.open("captcha.gif")
#(将图片转换为8位像素模式)
im = im.convert("P")

#打印颜色直方图
print im.histogram()

输出：

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 , 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 2, 1, 0, 0, 0, 2, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0 , 1, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0, 0, 1, 2, 0, 1, 0, 0, 1, 0, 2, 0, 0, 1, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 3, 1, 3, 3, 0, 0, 0, 0, 0, 0, 1, 0, 3, 2, 132, 1, 1, 0, 0, 0, 1, 2, 0, 0, 0, 0, 0, 0, 0, 15, 0 , 1, 0, 1, 0, 0, 8, 1, 0, 0, 0, 0, 1, 6, 0, 2, 0, 0, 0, 0, 18, 1, 1, 1, 1, 1, 2, 365, 115, 0, 1, 0, 0, 0, 135, 186, 0, 0, 1, 0, 0, 0, 116, 3, 0, 0, 0, 0, 0, 21, 1, 1, 0, 0, 0, 2, 10, 2, 0, 0, 0, 0, 2, 10, 0, 0, 0, 0, 1, 0, 625]

颜色直方图的每一位数字都代表了在图片中含有对应位的颜色的像素的数量。

每个像素点可表现256种颜色，你会发现白点是最多（白色序号255的位置，也就是最后一位，可以看到，有625个白色像素）。红像素在序号200左右，我们可以通过排序，得到有用的颜色。

his = im.histogram()
values = {}

for i in range(256):
 values[i] = his[i]

for j,k in sorted(values.items(),key=lambda x:x[1],reverse = True)[:10]:
 print j,k

输出：

我们得到了图片中最多的10种颜色，其中 220 与 227 才是我们需要的红色和灰色，可以通过这一讯息构造一种黑白二值图片。

#-*- coding:utf8 -*-
from PIL import Image

im = Image.open("captcha.gif")
im = im.convert("P")
im2 = Image.new("P",im.size,255)


for x in range(im.size[1]):
 for y in range(im.size[0]):
  pix = im.getpixel((y,x))
  if pix == 220 or pix == 227: # these are the numbers to get
   im2.putpixel((y,x),0)

im2.show()

得到的结果：

利用Python破解验证码实例详解

提取单个字符图片

接下来的工作是要得到单个字符的像素集合，由于例子比较简单，我们对其进行纵向切割：

inletter = False
foundletter=False
start = 0
end = 0

letters = []

for y in range(im2.size[0]): 
 for x in range(im2.size[1]):
  pix = im2.getpixel((y,x))
  if pix != 255:
   inletter = True
 if foundletter == False and inletter == True:
  foundletter = True
  start = y

 if foundletter == True and inletter == False:
  foundletter = False
  end = y
  letters.append((start,end))

 inletter=False
print letters

输出：

[(6, 14), (15, 25), (27, 35), (37, 46), (48, 56), (57, 67)]

得到每个字符开始和结束的列序号。

import hashlib
import time

count = 0
for letter in letters:
 m = hashlib.md5()
 im3 = im2.crop(( letter[0] , 0, letter[1],im2.size[1] ))
 m.update("%s%s"%(time.time(),count))
 im3.save("./%s.gif"%(m.hexdigest()))
 count += 1

(接上面的代码)

对图片进行切割，得到每个字符所在的那部分图片。

AI 与向量空间图像识别

在这里我们使用向量空间搜索引擎来做字符识别，它具有很多优点：

不需要大量的训练迭代
不会训练过度
你可以随时加入／移除错误的数据查看效果
很容易理解和编写成代码
提供分级结果，你可以查看最接近的多个匹配
对于无法识别的东西只要加入到搜索引擎中，马上就能识别了。

当然它也有缺点，例如分类的速度比神经网络慢很多，它不能找到自己的方法解决问题等等。

向量空间搜索引擎名字听上去很高大上其实原理很简单。拿文章里的例子来说：

你有 3 篇文档，我们要怎么计算它们之间的相似度呢？2 篇文档所使用的相同的单词越多，那这两篇文章就越相似！但是这单词太多怎么办，就由我们来选择几个关键单词，选择的单词又被称作特征，每一个特征就好比空间中的一个维度（x，y，z 等），一组特征就是一个矢量，每一个文档我们都能得到这么一个矢量，只要计算矢量之间的夹角就能得到文章的相似度了。

用 Python 类实现向量空间：

import math

class VectorCompare:
 #计算矢量大小
 def magnitude(self,concordance):
  total = 0
  for word,count in concordance.iteritems():
   total += count ** 2
  return math.sqrt(total)

 #计算矢量之间的 cos 值
 def relation(self,concordance1, concordance2):
  relevance = 0
  topvalue = 0
  for word, count in concordance1.iteritems():
   if concordance2.has_key(word):
    topvalue += count * concordance2[word]
  return topvalue / (self.magnitude(concordance1) * self.magnitude(concordance2))

它会比较两个 python 字典类型并输出它们的相似度（用 0～1 的数字表示）

将之前的内容放在一起

还有取大量验证码提取单个字符图片作为训练集合的工作，但只要是有好好读上文的同学就一定知道这些工作要怎么做，在这里就略去了。可以直接使用提供的训练集合来进行下面的操作。

iconset目录下放的是我们的训练集。

最后追加的内容：

#将图片转换为矢量
def buildvector(im):
 d1 = {}
 count = 0
 for i in im.getdata():
  d1[count] = i
  count += 1
 return d1

v = VectorCompare()

iconset = ['0','1','2','3','4','5','6','7','8','9','0','a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']

#加载训练集
imageset = []
for letter in iconset:
 for img in os.listdir('./iconset/%s/'%(letter)):
  temp = []
  if img != "Thumbs.db" and img != ".DS_Store":
   temp.append(buildvector(Image.open("./iconset/%s/%s"%(letter,img))))
  imageset.append({letter:temp})


count = 0
#对验证码图片进行切割
for letter in letters:
 m = hashlib.md5()
 im3 = im2.crop(( letter[0] , 0, letter[1],im2.size[1] ))

 guess = []

 #将切割得到的验证码小片段与每个训练片段进行比较
 for image in imageset:
  for x,y in image.iteritems():
   if len(y) != 0:
    guess.append( ( v.relation(y[0],buildvector(im3)),x) )

 guess.sort(reverse=True)
 print "",guess[0]
 count += 1

得到结果

一切准备就绪，运行我们的代码试试：

python crack.py

输出

(0.96376811594202894, '7')
(0.96234028545977002, 's')
(0.9286884286888929, '9')
(0.98350370609844473, 't')
(0.96751165072506273, '9')
(0.96989711688772628, 'j')

是正解，干得漂亮。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流。

利用Python破解验证码实例详解

- Author -

程序员实验室

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中类和实例如何绑定属性与方法示例详解

Aug 18 Python

python数据类型之间怎么转换技巧分享

Aug 20 Python

python3实现高效的端口扫描

Aug 31 Python

pymysql模块的使用(增删改查)详解

Sep 09 Python

tensorflow模型保存、加载之变量重命名实例

Jan 21 Python

解决Tensorflow占用GPU显存问题

Feb 03 Python

pycharm激活码快速激活及使用步骤

Mar 12 Python

利用python绘制数据曲线图的实现

Apr 09 Python

如何通过Python3和ssl实现加密通信功能

May 09 Python

基于Pyinstaller打包Python程序并压缩文件大小

May 28 Python

Python pymsql模块的使用

Sep 07 Python

用Python写一个简易版弹球游戏

Apr 13 Python

详解使用python crontab设置linux定时任务

Dec 08 #Python

Python 正则表达式入门（中级篇）

Dec 07 #Python

Python 正则表达式入门（初级篇）

Dec 07 #Python

Python标准库06之子进程 (subprocess包) 详解

Dec 07 #Python

利用 Monkey 命令操作屏幕快速滑动

Dec 07 #Python

Python深入06——python的内存管理详解

Dec 07 #Python

Python制作钉钉加密/解密工具

Dec 07 #Python

You might like

Windows2003 下 MySQL 数据库每天自动备份

2006/12/21 PHP

PHP执行linux系统命令的常用函数使用说明

2010/04/27 PHP

如何解决phpmyadmin导入数据库文件最大限制2048KB

2015/10/09 PHP

php实现的网页版剪刀石头布游戏示例

2016/11/25 PHP

PHP实现批量重命名某个文件夹下所有文件的方法

2017/09/04 PHP

浅析LigerUi开发中谨慎载入common.css文件

2013/07/09 Javascript

js加入收藏以及使用Jquery更改透明度

2014/01/26 Javascript

JS使用for循环遍历Table的所有单元格内容

2014/08/21 Javascript

js实现跟随鼠标移动且带关闭功能的图片广告实例

2015/02/26 Javascript

jQuery设置和移除文本框默认值的方法

2015/03/09 Javascript

js实现将选中内容分享到新浪或腾讯微博

2015/12/16 Javascript

BootStrap iCheck插件全选与获取value值的解决方法

2016/08/24 Javascript

Angular2 (RC5) 路由与导航详解

2016/09/21 Javascript

jQuery实现右键菜单、遮罩等效果代码

2016/09/27 Javascript

浅谈js算法和流程控制

2016/12/29 Javascript

JS实现的四级密码强度检测功能示例

2017/05/11 Javascript

JS判断非空至少输入两个字符的简单实现方法

2017/06/23 Javascript

VS Code转换大小写、修改选中文字或代码颜色的方法

2017/12/15 Javascript

vue和webpack安装命令详解

2018/06/15 Javascript

解决Layui选择全部,换页checkbox复选框重新勾选的问题方法

2018/08/14 Javascript

vue axios基于常见业务场景的二次封装的实现

2018/09/21 Javascript

elementUI Tree 树形控件的官方使用文档

2019/04/25 Javascript

python有证书的加密解密实现方法

2014/11/19 Python

使用Python中的tkinter模块作图的方法

2017/02/07 Python

Django 路由系统URLconf的使用

2018/10/11 Python

tensorflow之自定义神经网络层实例

2020/02/07 Python

使用Python第三方库pygame写个贪吃蛇小游戏

2020/03/06 Python

Python drop方法删除列之inplace参数实例

2020/06/27 Python

flask项目集成swagger的方法

2020/12/09 Python

布里斯班女装时尚品牌：Adrift

2017/12/28 全球购物

地球鞋加拿大官网：Earth Shoes Canada

2020/11/17 全球购物

工厂仓管员岗位职责

2014/01/01 职场文书

2014民事授权委托书范本

2014/09/29 职场文书

社会主义核心价值观主题教育活动总结

2015/05/07 职场文书

宣传部部长竞选稿

2015/11/21 职场文书

党员公开承诺书（2016最新版）

2016/03/24 职场文书