Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
使用Python进行稳定可靠的文件操作详解
Dec 31 Python
Python ORM框架SQLAlchemy学习笔记之关系映射实例
Jun 10 Python
使用Python标准库中的wave模块绘制乐谱的简单教程
Mar 30 Python
解决Python中字符串和数字拼接报错的方法
Oct 23 Python
python安装scipy的方法步骤
Jun 26 Python
python基于celery实现异步任务周期任务定时任务
Dec 30 Python
在PyCharm中实现添加快捷模块
Feb 12 Python
pyecharts动态轨迹图的实现示例
Apr 17 Python
python库skimage给灰度图像染色的方法示例
Apr 27 Python
Python中如何添加自定义模块
Jun 09 Python
python的dict判断key是否存在的方法
Dec 09 Python
python 下载文件的几种方法汇总
Jan 06 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
php $_SERVER["REQUEST_URI"]获取值的通用解决方法
2010/06/21 PHP
合并ThinkPHP配置文件以消除代码冗余的实现方法
2014/07/22 PHP
php批量删除操作代码分享
2017/02/26 PHP
PHP实现对数字分隔加千分号的方法
2019/03/18 PHP
PHP检查文件是否存在,不存在自动创建及读取文件内容操作示例
2020/01/23 PHP
Javascript日期对象的dateAdd与dateDiff方法
2008/11/18 Javascript
jQuery 页面 Mask实现代码
2010/01/09 Javascript
jQuery 联动日历实现代码
2012/05/31 Javascript
关于JavaScript的面向对象和继承有利新手学习
2013/01/11 Javascript
Extjs 继承Ext.data.Store不起作用原因分析及解决
2013/04/15 Javascript
JQuery触发事件例如click
2013/09/11 Javascript
浅谈javascript事件取消和阻止冒泡
2015/05/26 Javascript
使用JQuery实现智能表单验证功能
2016/03/08 Javascript
基于EasyUI的基础之上实现树形功能菜单
2017/06/28 Javascript
在一般处理程序(ashx)中弹出js提示语
2017/08/16 Javascript
javascript中的this作用域详解
2019/07/15 Javascript
axios实现简单文件上传功能
2019/09/25 Javascript
Vue.js计算机属性computed和methods方法详解
2019/10/12 Javascript
15分钟学会vue项目改造成SSR(小白教程)
2019/12/17 Javascript
vue 解决mintui弹窗弹起来,底部页面滚动bug问题
2020/11/12 Javascript
python文件操作之目录遍历实例分析
2015/05/20 Python
详解python中的 is 操作符
2017/12/26 Python
Python OpenCV读取png图像转成jpg图像存储的方法
2018/10/28 Python
使用python动态生成波形曲线的实现
2019/12/04 Python
Python logging模块写入中文出现乱码
2020/05/21 Python
如何将json数据转换为python数据
2020/09/04 Python
Anaconda+spyder+pycharm的pytorch配置详解(GPU)
2020/10/18 Python
python 基于opencv实现高斯平滑
2020/12/18 Python
css3实现冲击波效果的示例代码
2018/01/11 HTML / CSS
Html5移动端弹幕动画实现示例代码
2018/08/27 HTML / CSS
美国知名的百货清仓店:Neiman Marcus Last Call
2016/08/03 全球购物
党员批评与自我批评发言材料
2014/10/14 职场文书
学生会招新宣传语
2015/07/13 职场文书
2015年秋季运动会加油稿
2015/07/22 职场文书
解决Goland 同一个package中函数互相调用的问题
2021/05/06 Golang
python中os.path.join()函数实例用法
2021/05/26 Python