编程 Python

tesserocr与pytesseract模块的使用方法解析

Posted in Python onAugust 30, 2019

1.tesserocr的使用

#从文件识别图像字符
In [7]: tesserocr.file_to_text('image.png')
Out[7]: 'Python3WebSpider\n\n'

#查看tesseract已安装的语言包
In [8]: tesserocr.get_languages()
Out[8]: ('/usr/share/tesseract/tessdata/', ['eng'])

#从图片数据识别图像字符
In [9]: tesserocr.image_to_text(im)
Out[9]: 'Python3WebSpider\n\n'

#查看版本信息
In [10]: tesserocr.tesseract_version()
Out[10]: 'tesseract 3.04.00\n leptonica-1.72\n libgif 4.1.6(?) : libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0\n'

2.pytesseract使用

功能：

get_tesseract_version
返回系统中安装的Tesseract版本。
image_to_string
将图像上的Tesseract OCR运行结果返回到字符串
image_to_boxes
返回包含已识别字符及其框边界的结果
image_to_data
返回包含框边界，置信度和其他信息的结果。需要Tesseract 3.05+。有关更多信息，请查看Tesseract TSV文档
image_to_osd
返回包含有关方向和脚本检测的信息的结果。

参数：

image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)

image object
图像对象
lang String，Tesseract
语言代码字符串
config String
任何其他配置为字符串，例如：config='--psm 6'
nice Integer
修改Tesseract运行的处理器优先级。Windows不支持。尼斯调整了类似unix的流程的优点。
output_type
类属性，指定输出的类型，默认为string。有关所有支持类型的完整列表，请检查pytesseract.Output类的定义。

from PIL import Image
import pytesseract

#如果PATH中没有tesseract可执行文件，请指定tesseract路径
pytesseract.pytesseract.tesseract_cmd='C:\Program Files (x86)\Tesseract-OCR\\tesseract.exe'

#打印识别的图像的字符串
print(pytesseract.image_to_string(Image.open('test.png')))

#指定语言识别图像字符串,eng为英语
print(pytesseract.image_to_string(Image.open('test-european.jpg'), lang='eng'))

#获取图像边界框
print(pytesseract.image_to_boxes(Image.open('test.png')))

#获取包含边界框，置信度，行和页码的详细数据
print(pytesseract.image_to_data(Image.open('test.png')))

#获取方向和脚本检测
print(pytesseract.image_to_osd(Image.open('test.png'))

图像识别简单应用

一般图像处理验证，需要通过对图像进行灰度处理、二值化后增加图像文字的辨识度，下面是一个简单的对图像验证码识别处理，如遇到复杂点的图像验证码如中间带多条同等大小划线的验证码需要对文字进行乔正切割等操作，但它的识别度也只有百分之30左右，所以得另外想别的办法来绕过验证

from PIL import Image
import pytesseract

im = Image.open('66.png')
#二值化图像传入图像和阈值
def erzhihua(image,threshold):
  ''':type image:Image.Image'''
  image=image.convert('L')
  table=[]
  for i in range(256):
    if i < threshold:
      table.append(0)
    else:
      table.append(1)
  return image.point(table,'1')
image=erzhihua(im,127)
image.show()
result=pytesseract.image_to_string(image,lang='eng')
print(result)

模拟自动识别验证码登陆：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time  : 2018/7/13 8:58
# @Author : Py.qi
# @File  : login.py
# @Software: PyCharm
from selenium import webdriver
from selenium.common.exceptions import TimeoutException,WebDriverException
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.remote.webelement import WebElement
from io import BytesIO
from PIL import Image
import pytesseract
import time

user='zhang'
password='123'
url='http://10.0.0.200'
driver=webdriver.Chrome()
wait=WebDriverWait(driver,10)

#识别验证码
def acker(content):
  im_erzhihua=erzhihua(content,127)
  result=pytesseract.image_to_string(im_erzhihua,lang='eng')
  return result

#验证码二值化
def erzhihua(image,threshold):
  ''':type image:Image.Image'''
  image=image.convert('L')
  table=[]
  for i in range(256):
    if i < threshold:
      table.append(0)
    else:
      table.append(1)
  return image.point(table,'1')

#自动登陆
def login():
  try:
    driver.get(url)
    #获取用户输入框
    input=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#loginname'))) #type:WebElement
    input.clear()
    #发送用户名
    input.send_keys(user)
    #获取密码框
    inpass=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#password'))) #type:WebElement
    inpass.clear()
    #发送密码
    inpass.send_keys(password)
    #获取验证输入框
    yanzheng=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#code'))) #type:WebElement
    #获取验证码在画布中的位置
    codeimg=wait.until(EC.presence_of_element_located((By.CSS_SELECTOR,'#codeImg'))) #type:WebElement
    image_location = codeimg.location
    #截取页面图像并截取掩码码区域图像
    image=driver.get_screenshot_as_png()
    im=Image.open(BytesIO(image))
    imag_code=im.crop((image_location['x'],image_location['y'],488,473))
    #输入验证码并登陆
    yanzheng.clear()
    yanzheng.send_keys(acker(imag_code))
    time.sleep(2)
    yanzheng.send_keys(Keys.ENTER)
  except TimeoutException as e:
    print('timeout:',e)
  except WebDriverException as e:
    print('webdriver error:',e)
if __name__ == '__main__':
  login()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

tesserocr与pytesseract模块的使用方法解析

- Author -

linyouyi

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

用python写个自动SSH登录远程服务器的小工具(实例)

Jun 17 Python

Flask框架Flask-Principal基本用法实例分析

Jul 23 Python

python 美化输出信息的实例

Oct 15 Python

python实现批量注册网站用户的示例

Feb 22 Python

详解利用python+opencv识别图片中的圆形（霍夫变换）

Jul 01 Python

Numpy将二维数组添加到空数组的实现

Dec 05 Python

利用Tensorflow构建和训练自己的CNN来做简单的验证码识别方式

Jan 20 Python

详解Python 重学requests发起请求的基本方式

Feb 07 Python

Python中的wordcloud库安装问题及解决方法

May 27 Python

Python ConfigParser模块的使用示例

Oct 12 Python

记一次python 爬虫爬取深圳租房信息的过程及遇到的问题

Nov 24 Python

Python利用机器学习算法实现垃圾邮件的识别

Jun 28 Python

Django获取应用下的所有models的例子

Aug 30 #Python

Django自带日志 settings.py文件配置方法

Aug 30 #Python

tensorflow如何批量读取图片

Aug 29 #Python

解决Django layui {{}}冲突的问题

Aug 29 #Python

Python Django实现layui风格+django分页功能的例子

Aug 29 #Python

在Django下测试与调试REST API的方法详解

Aug 29 #Python

阿里云ECS服务器部署django的方法

Aug 29 #Python

You might like

第五节--克隆

2006/11/16 PHP

Zend的Registry机制的使用说明

2013/05/02 PHP

ThinkPHP3.1.3版本新特性概述

2014/06/19 PHP

php使用curl下载指定大小的文件实例代码

2017/09/30 PHP

Javascript中的常见排序算法

2007/03/27 Javascript

JavaScript OOP面向对象介绍

2010/12/02 Javascript

javascript学习笔记(二) js一些基本概念

2012/06/18 Javascript

JS实现金额转换(将输入的阿拉伯数字)转换成中文的实现代码

2013/09/30 Javascript

JS实现黑客帝国文字下落效果

2015/09/01 Javascript

JavaScript学习小结(7)之JS RegExp

2015/11/29 Javascript

JavaScript jQuery 中定义数组与操作及jquery数组操作

2015/12/18 Javascript

JavaScript资源预加载组件和滑屏组件的使用推荐

2016/03/10 Javascript

一系列Bootstrap导航条使用方法分享

2016/04/29 Javascript

jQuery实现图片轮播效果代码(基于jquery.pack.js插件)

2016/06/02 Javascript

JS实现图片剪裁并预览效果

2016/08/12 Javascript

jQuery实现一个简单的轮播图

2017/02/19 Javascript

angularjs指令之绑定策略（@、=、&）

2017/04/13 Javascript

JavaScript实现随机数生成器（去重）

2017/10/13 Javascript

如何在vue里面优雅的解决跨域(路由冲突问题)

2019/01/20 Javascript

vue-router 起步步骤详解

2019/03/26 Javascript

vue接入腾讯防水墙代码

2019/05/07 Javascript

Python批量创建迅雷任务及创建多个文件

2016/02/13 Python

Python脚本按照当前日期创建多级目录

2019/03/01 Python

NumPy 数组使用大全

2019/04/25 Python

Python中函数的基本定义与调用及内置函数详解

2019/05/13 Python

在django admin中添加自定义视图的例子

2019/07/26 Python

使用pyecharts生成Echarts网页的实例

2019/08/12 Python

Python中xml和dict格式转换的示例代码

2019/11/07 Python

Python环境管理virtualenv&virtualenvwrapper的配置详解

2020/07/01 Python

土耳其新趋势女装购物网站：Addax

2020/01/07 全球购物

定义一结构体数组表示分数，并求两个分数相加之和

2013/06/11 面试题

怎样在 Applet 中建立自己的菜单(MenuBar/Menu)？

2012/06/20 面试题

会计师事务所审计实习自我鉴定

2013/09/20 职场文书

《阳光》教学反思

2014/02/23 职场文书

python获取淘宝服务器时间的代码示例

2021/04/22 Python

git stash(储藏)的用法总结

2022/06/25 Servers