Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python使用post提交数据到远程url的方法
Apr 29 Python
TensorFlow实现AutoEncoder自编码器
Mar 09 Python
用Python和WordCloud绘制词云的实现方法(内附让字体清晰的秘笈)
Jan 08 Python
用Python中的turtle模块画图两只小羊方法
Apr 09 Python
简单了解python关系(比较)运算符
Jul 08 Python
python字典的遍历3种方法详解
Aug 10 Python
python 利用pywifi模块实现连接网络破解wifi密码实时监控网络
Sep 16 Python
使用Python进行防病毒免杀解析
Dec 13 Python
如何在django中添加日志功能
Feb 06 Python
Python运行提示缺少模块问题解决方案
Apr 02 Python
Python Mock模块原理及使用方法详解
Jul 07 Python
Python实现定时监测网站运行状态的示例代码
Sep 30 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
php2html php生成静态页函数
2008/12/08 PHP
php ci框架中加载css和js文件失败的解决方法
2014/03/03 PHP
php简单实现多字节字符串翻转的方法
2015/03/31 PHP
老生常谈PHP面向对象之命令模式(必看篇)
2017/05/24 PHP
常用js脚本
2006/12/03 Javascript
Javascript实现DIV滚动自动滚动到底部的代码
2012/03/01 Javascript
Javascript中浮点数相乘的一个解决方法
2014/06/03 Javascript
node.js中的fs.lchmodSync方法使用说明
2014/12/16 Javascript
jQuery团购倒计时特效实现方法
2015/05/07 Javascript
简介AngularJS中$http服务的用法
2016/02/06 Javascript
谈一谈js中的执行环境及作用域
2016/03/30 Javascript
微信小程序 简单教程实例详解
2017/01/13 Javascript
jQuery代码实现实时获取时间
2017/01/29 Javascript
js CSS3实现卡牌旋转切换效果
2017/07/04 Javascript
微信小程序实现tab左右切换效果
2020/11/15 Javascript
详解ES6 Promise的生命周期和创建
2019/08/18 Javascript
layui table复选框禁止某几条勾选的实例
2019/09/20 Javascript
JavaScript运行机制实例分析
2020/04/11 Javascript
微信小程序scroll-view实现滚动到锚点左侧导航栏点餐功能(点击种类,滚动到锚点)
2020/06/11 Javascript
分享8个JavaScript库可更好地处理本地存储
2020/10/12 Javascript
python解决网站的反爬虫策略总结
2016/10/26 Python
matplotlib实现热成像图colorbar和极坐标图的方法
2018/12/13 Python
在python里使用await关键字来等另外一个协程的实例
2020/05/04 Python
python构造IP报文实例
2020/05/05 Python
详解pyinstaller生成exe的闪退问题解决方案
2020/06/19 Python
HTML5的video标签的浏览器兼容性增强方案分享
2016/05/19 HTML / CSS
DNA测试:Orig3n
2019/03/01 全球购物
初二政治教学反思
2014/01/12 职场文书
小学生家长评语大全
2014/02/10 职场文书
大学生优秀班干部事迹材料
2014/05/26 职场文书
授权委托书范本(单位)
2014/09/28 职场文书
十岁生日答谢词
2015/01/05 职场文书
大学生自荐书范文
2015/03/05 职场文书
美丽人生观后感
2015/06/03 职场文书
公司员工管理制度
2015/08/04 职场文书
python字典的元素访问实例详解
2021/07/21 Python