python利用Tesseract识别验证码的方法示例


Posted in Python onJanuary 21, 2019

无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocrpytesseracttesserocrpytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract

下载安装

下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe

下载完成后,双击安装,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata/下载zip的语言包压缩文件,解压后将tessdata-master中的文件复制到Tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下,最后我们配置下环境变量,我们将C:\Program Files (x86)\Tesseract-OCR添加到环境变量中。进入命令提示符,输入tesseract,显示下图结果,说明配置完成

python利用Tesseract识别验证码的方法示例

查看安装了的语言包:tesseract --list-langs

python利用Tesseract识别验证码的方法示例

显示我一共安装了167种语言包,里边包含英文或者其他字符。

测试

实验用的二维码

python利用Tesseract识别验证码的方法示例

基本使用语法
tesseract image.png result (tesseract 图片名称 生成文件名称)

结果

python利用Tesseract识别验证码的方法示例

由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装 pip install pytesseract

识别验证码脚本

import pytesseract
from PIL import Image
im=Image.open('pin.png')
print(pytesseract.image_to_string(im))

结果

python利用Tesseract识别验证码的方法示例

这样识别的结果同样跟上文一样,个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化

import pytesseract
from PIL import Image
im=Image.open('5.jpg')
#进行置灰处理
im=im.convert('L')
#这个是二值化阈值
threshold=150
table=[]
for i in range(256):
 if i<threshold:
  table.append(0)
 else:
  table.append(1)
#通过表格转换成二进制图片,1的作用是白色,0就是黑色
im=im.point(table,"1")
im.show()
print(pytesseract.image_to_string(im))

原图

python利用Tesseract识别验证码的方法示例

置灰和二值化后

python利用Tesseract识别验证码的方法示例

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python判断质数(素数)的简单方法讲解
May 05 Python
python万年历实现代码 含运行结果
May 20 Python
Python使用matplotlib绘制正弦和余弦曲线的方法示例
Jan 06 Python
pygame游戏之旅 创建游戏窗口界面
Nov 20 Python
对Python模块导入时全局变量__all__的作用详解
Jan 11 Python
Python+opencv 实现图片文字的分割的方法示例
Jul 04 Python
python实现将一维列表转换为多维列表(numpy+reshape)
Nov 29 Python
tensorflow模型继续训练 fineturn实例
Jan 21 Python
python 读取.nii格式图像实例
Jul 01 Python
python,Java,JavaScript实现indexOf
Sep 09 Python
Python基于Serializer实现字段验证及序列化
Nov 04 Python
Python基础之hashlib模块详解
May 06 Python
对python过滤器和lambda函数的用法详解
Jan 21 #Python
利用Python正则表达式过滤敏感词的方法
Jan 21 #Python
Python 实现王者荣耀中的敏感词过滤示例
Jan 21 #Python
opencv python统计及绘制直方图的方法
Jan 21 #Python
python numpy 按行归一化的实例
Jan 21 #Python
python树莓派红外反射传感器
Jan 21 #Python
python实现自动解数独小程序
Jan 21 #Python
You might like
全国FM电台频率大全 - 23 四川省
2020/03/11 无线电
提问的智慧
2006/10/09 PHP
input file获得文件根目录简单实现
2013/04/26 PHP
php 生成自动创建文件夹并上传文件的示例代码
2014/03/07 PHP
Zend Framework入门教程之Zend_View组件用法示例
2016/12/09 PHP
在Mac OS下搭建LNMP开发环境的步骤详解
2017/03/10 PHP
浅谈PHP5.6 与 PHP7.0 区别
2019/10/09 PHP
PHP数据源架构模式之表入口模式实例分析
2020/01/23 PHP
jquery select操作的日期联动实现代码
2009/12/06 Javascript
JavaScript去掉空格的方法集合
2010/12/28 Javascript
javascript学习笔记(十二) RegExp类型介绍
2012/06/20 Javascript
javascript ajax 仿百度分页函数
2013/10/29 Javascript
jQuery中get()方法用法实例
2014/12/27 Javascript
jQuery实现加入购物车飞入动画效果
2015/03/14 Javascript
JavaScript如何自定义trim方法
2015/07/28 Javascript
利用jQuery实现WordPress中@的ID悬浮显示评论内容
2015/12/11 Javascript
解决Angular4项目部署到服务器上刷新404的问题
2018/08/31 Javascript
[02:24]DOTA2亚洲邀请赛 NAVI战队出场宣传片
2015/02/07 DOTA
全面理解Python中self的用法
2016/06/04 Python
深入理解Python单元测试unittest的使用示例
2017/11/18 Python
Python用for循环实现九九乘法表
2018/05/31 Python
python将处理好的图像保存到指定目录下的方法
2019/01/10 Python
pandas实现将日期转换成timestamp
2019/12/07 Python
Python中sorted()排序与字母大小写的问题
2020/01/14 Python
通过Turtle库在Python中绘制一个鼠年福鼠
2020/02/03 Python
python GUI库图形界面开发之PyQt5 UI主线程与耗时线程分离详细方法实例
2020/02/26 Python
python打包多类型文件的操作方法
2020/09/21 Python
python 实现的车牌识别项目
2021/01/25 Python
请用Java实现列出某个目录下的所有文件
2013/09/23 面试题
在DELPHI中调用存储过程和使用内嵌SQL哪种方式更好
2016/11/22 面试题
申请任职学生会干部自荐书范文
2014/02/13 职场文书
高中同学会活动方案
2014/08/14 职场文书
2015小学教师德育工作总结
2015/05/12 职场文书
盲山观后感
2015/06/11 职场文书
2021年国漫热度排行前十,完美世界上榜,第四是美国动画作品
2022/03/18 国漫
Win11自动黑屏怎么办 Win11自动黑屏设置教程
2022/07/15 数码科技