python简单验证码识别的实现过程


Posted in Python onJune 20, 2021
目录
  • 1. 环境准备
    • 1.1 安装pillow 和 pytesseract
    • 1.2 安装Tesseract-OCR.exe
    • 1.3 更改pytesseract.py的ocr路径
  • 2. 测试识别效果
  • 3. 实战案例?实现古诗文网验证码自动识别登录
  • 总结

 

1. 环境准备

 

1.1 安装pillow 和 pytesseract

python模块库需要 pillow 和 pytesseract 这两个库,直接pip install 安装就好了。

pip install pillow
pip install pytesseract

 

1.2 安装Tesseract-OCR.exe

下载地址:ocr下载地址

建议下载最新稳定版本:

tesseract-ocr-w64-setup-v5.0.0.20190623.exe。

安装过程很简单,直接点击下一步就完事了,其间可以默认安装路径,也可以自定义安装路径,装好之后,把它的安装路径添加到环境变量中即可,如我的这样:

我的安装位置:

python简单验证码识别的实现过程

环境变量就这样加:

python简单验证码识别的实现过程

 

1.3 更改pytesseract.py的ocr路径

我们pip install pytesseract 之后,在python解释器安装位置包里可以找到pytesseract.py文件如下:

python简单验证码识别的实现过程

打开之后,更改:

python简单验证码识别的实现过程

至此,环境准备工作算是大功告成了。

 

2. 测试识别效果

ocr一直默认安装,起始就可以支持数字和英文字母识别的,接下来

我们准备一张验证码图片:

python简单验证码识别的实现过程

将图片,命名为captcha.png,放到程序同一目录下

import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))

效果:

python简单验证码识别的实现过程

我们再尝试一下中文识别。

在进行识别之前我们要先下载好中文拓展语言包,
语言包地址

下载需要的的语言包,如下图,红框内为中文简体语言包:

python简单验证码识别的实现过程

下载后将该包直接放在ocr程序安装目录的tessdata文件夹里面即可。

python简单验证码识别的实现过程

找一张图片测试一下:

python简单验证码识别的实现过程

import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))

效果:

python简单验证码识别的实现过程

有时候文本识别率并不高,建议图像识别前,先对图像进行灰度化和 二值化

代码示例:

import pytesseract
from PIL import Image
file = r"00.jpg"

# 先对图像进行灰度化和 二值化
image = Image.open(file)
Img = image.convert('L')   # 灰度化
#自定义灰度界限,这里可以大于这个值为黑色,小于这个值为白色。threshold可根据实际情况进行调整(最大可为255)。
threshold = 180
table = []
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)
photo = Img.point(table, '1')  #图片二值化
#保存处理好的图片
photo.save('01.jpg')

image = Image.open('01.jpg')
# 解析图片,lang='chi_sim'表示识别简体中文,默认为English
# 如果是只识别数字,可再加上参数config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
content = pytesseract.image_to_string(image, lang='chi_sim')
print(content)

 

3. 实战案例?实现古诗文网验证码自动识别登录

import pytesseract
from PIL import Image
from selenium import webdriver


def save_captcha(path):
    driver = webdriver.Chrome()  # 创建浏览器对象
    driver.maximize_window()
    driver.implicitly_wait(10)
    driver.get(url=url)
    image = driver.find_element_by_id('imgCode')
    image.screenshot(path)
    return driver


def recognize_captcha(captcha_path):
    captcha = Image.open(captcha_path)  # 打开图片
    grap = captcha.convert('L')  # 对图片进行灰度化处理
    data = grap.load()  # 将图片对象加载成数据
    w, h = captcha.size  # 获取图片的大小(宽度,高度)
    # 图片二值化处理
    for x in range(w):
        for y in range(h):
            if data[x, y] < 140:
                data[x, y] = 0
            else:
                data[x, y] = 255
    code = pytesseract.image_to_string(grap)  # 对图片进行识别
    return code


def login(driver, code):
    flag = True
    email = '1242931802@qq.com' # 注册的古诗文网账号和密码
    password = 'xxxx'
    try:
        driver.find_element_by_id('email').send_keys(email)
        driver.find_element_by_id('pwd').send_keys(password)
        driver.find_element_by_id('code').send_keys(code)
        driver.implicitly_wait(10)
        driver.find_element_by_id('denglu').click()
    except Exception as ex:
        flag = False
    return flag


if __name__ == '__main__':
    url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
    captcha_path = './captcha.png'
    count = 1
    driver = save_captcha(captcha_path)  # 获取驱动
    code = recognize_captcha(captcha_path)  # 获取验证码
    print('识别验证码为:', code)
    if login(driver, code):
        driver.quit()

效果如下(有时候第一次可能识别失败,可以写个循环逻辑让它多识别几次,一般程序运行1-3次基本会识别成功):

python简单验证码识别的实现过程

 

总结

到此这篇关于python实现简单验证码识别的文章就介绍到这了,更多相关python验证码识别内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
使用python BeautifulSoup库抓取58手机维修信息
Nov 21 Python
python中的yield使用方法
Feb 11 Python
python脚本设置系统时间的两种方法
Feb 21 Python
TensorFlow实现简单卷积神经网络
May 24 Python
python实现Zabbix-API监控
Sep 17 Python
Python人脸识别第三方库face_recognition接口说明文档
May 03 Python
利用Python进行图像的加法,图像混合(附代码)
Jul 14 Python
python 实现list或string按指定分段
Dec 25 Python
Python调用Windows API函数编写录音机和音乐播放器功能
Jan 05 Python
Python实现多线程下载脚本的示例代码
Apr 03 Python
pandas DataFrame 数据选取,修改,切片的实现
Apr 24 Python
Python多分支if语句的使用
Sep 03 Python
Python pygame实现中国象棋单机版源码
Python并发编程实例教程之线程的玩法
Jun 20 #Python
python迷宫问题深度优先遍历实例
Jun 20 #Python
Python虚拟环境virtualenv是如何使用的
Python机器学习之底层实现KNN
Jun 20 #Python
利用python进行数据加载
Jun 20 #Python
Python编解码问题及文本文件处理方法详解
You might like
基于PHP CURL用法的深入分析
2013/06/09 PHP
Yii2使用小技巧之通过 Composer 添加 FontAwesome 字体资源
2014/06/22 PHP
PHPStorm+XDebug进行调试图文教程
2016/06/13 PHP
php获取微信openid方法总结
2019/10/10 PHP
PHP终止脚本运行三种实现方法详解
2020/09/01 PHP
javascript getElementsByClassName 和js取地址栏参数
2010/01/02 Javascript
js中关于new Object时传参的一些细节分析
2011/03/13 Javascript
input标签内容改变的触发事件介绍
2014/06/18 Javascript
JavaScript常用验证函数实例汇总
2014/11/25 Javascript
JQuery节点元素属性操作方法
2015/06/11 Javascript
谈谈impress.js初步理解
2015/09/09 Javascript
javascript结合Flexbox简单实现滑动拼图游戏
2016/02/18 Javascript
用js控件div的滚动条,让它在内容更新时自动滚到底部的实现方法
2016/10/27 Javascript
简单学习vue指令directive
2016/11/03 Javascript
js省市区级联查询(插件版&amp;无插件版)
2017/03/21 Javascript
ES6新特性之变量和字符串用法示例
2017/04/01 Javascript
js封装成插件的步骤方法
2017/09/11 Javascript
vue + element-ui实现简洁的导入导出功能
2017/12/22 Javascript
使用express获取微信小程序二维码小记
2019/05/21 Javascript
vue2和vue3的v-if与v-for优先级对比学习
2020/10/10 Javascript
Python实现的下载8000首儿歌的代码分享
2014/11/21 Python
详解python的几种标准输出重定向方式
2016/08/15 Python
Python调用微信公众平台接口操作示例
2017/07/08 Python
Python中Selenium模拟JQuery滑动解锁实例
2017/07/26 Python
python实现字符串加密 生成唯一固定长度字符串
2019/03/22 Python
MNIST数据集转化为二维图片的实现示例
2020/01/10 Python
Python中url标签使用知识点总结
2020/01/16 Python
Python基于execjs运行js过程解析
2020/11/27 Python
python 使用csv模块读写csv格式文件的示例
2020/12/02 Python
一文读懂python Scrapy爬虫框架
2021/02/24 Python
顺丰快递Java软件工程师面试题
2015/07/31 面试题
创建精神文明单位实施方案
2014/03/08 职场文书
岗位说明书标准范本
2014/07/30 职场文书
大学生暑期社会实践证明范本
2014/10/24 职场文书
委托公证书格式
2015/01/26 职场文书
2016年父亲节寄语
2015/12/04 职场文书