Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Eclipse + Python 的安装与配置流程
Mar 05 Python
简单的Apache+FastCGI+Django配置指南
Jul 22 Python
Python数据结构之顺序表的实现代码示例
Nov 15 Python
python统计多维数组的行数和列数实例
Jun 23 Python
django_orm查询性能优化方法
Aug 20 Python
在pandas多重索引multiIndex中选定指定索引的行方法
Nov 16 Python
python 运用Django 开发后台接口的实例
Dec 11 Python
Python中常用的8种字符串操作方法
May 06 Python
Python3 实现爬取网站下所有URL方式
Jan 16 Python
python和pywin32实现窗口查找、遍历和点击的示例代码
Apr 01 Python
详解Selenium-webdriver绕开反爬虫机制的4种方法
Oct 28 Python
python实现b站直播自动发送弹幕功能
Feb 20 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
php的header和asp中的redirect比较
2006/10/09 PHP
PHP实例分享判断客户端是否使用代理服务器及其匿名级别
2014/06/04 PHP
PHP安装BCMath扩展的方法
2019/02/13 PHP
PHP crypt()函数的用法讲解
2019/02/15 PHP
JavaScript下利用fso判断文件是否存在的代码
2010/12/11 Javascript
ajax的hide隐藏问题解决方法
2012/12/11 Javascript
禁止ajax缓存获取程序最新数据的方法
2013/11/19 Javascript
js中的preventDefault与stopPropagation详解
2014/01/29 Javascript
js删除数组元素、清空数组的简单方法(必看)
2016/07/27 Javascript
详解关于Vuex的action传入多个参数的问题
2019/02/22 Javascript
VScode格式化ESlint方法(最全最好用方法)
2019/09/10 Javascript
Antd-vue Table组件添加Click事件,实现点击某行数据教程
2020/11/17 Javascript
[02:54]DOTA2亚洲邀请赛 VG战队出场宣传片
2015/02/07 DOTA
[08:17]Ti9 现场cosplay
2019/09/10 DOTA
[50:44]DOTA2-DPC中国联赛 正赛 SAG vs Dragon BO3 第二场 2月22日
2021/03/11 DOTA
Python实现的一个找零钱的小程序代码分享
2014/08/25 Python
Python中对列表排序实例
2015/01/04 Python
Python的string模块中的Template类字符串模板用法
2016/06/27 Python
Python实现计算圆周率π的值到任意位的方法示例
2018/05/08 Python
Python3中编码与解码之Unicode与bytes的讲解
2019/02/28 Python
详解python中自定义超时异常的几种方法
2019/07/29 Python
Python高级特性——详解多维数组切片(Slice)
2019/11/26 Python
你可能不知道的Python 技巧小结
2020/01/29 Python
python Shapely使用指南详解
2020/02/18 Python
pycharm的python_stubs问题
2020/04/08 Python
python 求两个向量的顺时针夹角操作
2021/03/04 Python
意大利网上购书网站:Libraccio.it
2021/02/03 全球购物
介绍一下Make? 为什么使用make
2013/12/08 面试题
EJB发布WEB服务一般步骤
2012/10/31 面试题
JAVA程序员面试题
2012/10/03 面试题
管理部副部长岗位职责范文
2014/03/09 职场文书
美国旅游签证工作证明
2014/10/14 职场文书
惊天动地观后感
2015/06/10 职场文书
运动会开幕式主持词
2015/07/01 职场文书
读书笔记格式
2015/07/02 职场文书
军训决心书范文
2015/09/22 职场文书