Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python正则表达式抓取成语网站
Nov 20 Python
Python中bisect的用法
Sep 23 Python
在Python中处理字符串之isdecimal()方法的使用
May 20 Python
Python解析最简单的验证码
Jan 07 Python
python使用tcp实现局域网内文件传输
Mar 20 Python
NLTK 3.2.4 环境搭建教程
Sep 19 Python
python实现五子棋游戏
Jun 18 Python
使用Python实现文字转语音并生成wav文件的例子
Aug 08 Python
Django实现在线无水印抖音视频下载(附源码及地址)
May 06 Python
python程序的组织结构详解
Dec 06 Python
Python中的嵌套循环详情
Mar 23 Python
Python各协议下socket黏包问题原理
Apr 12 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
十天学会php之第二天
2006/10/09 PHP
使用PHP导出Redis数据到另一个Redis中的代码
2014/03/12 PHP
php获取CSS文件中图片地址并下载到本地的方法
2014/12/02 PHP
php封装的smarty类完整实例
2016/10/19 PHP
jQuery的链式调用浅析
2010/12/03 Javascript
用显卡加速,轻松把笔记本打造成取暖器的办法!
2013/04/17 Javascript
jquery常用特效方法使用示例
2014/04/25 Javascript
javascript操作select元素实例分析
2015/03/27 Javascript
详解javascript中的事件处理
2015/11/06 Javascript
微信小程序  wx.request合法域名配置详解
2016/11/23 Javascript
JavaScript实现垂直滚动条效果
2017/01/18 Javascript
jQuery弹出层插件popShow(改进版)用法示例
2017/01/23 Javascript
Node.js安装配置图文教程
2017/05/10 Javascript
JavaScript实现的DOM树遍历方法详解【二叉DOM树、多叉DOM树】
2018/05/07 Javascript
使用vue-cli打包过程中的步骤以及问题的解决
2018/05/08 Javascript
前端插件之Bootstrap Dual Listbox使用教程
2019/07/23 Javascript
javascript如何实现create方法
2019/11/04 Javascript
javascript设计模式 ? 观察者模式原理与用法实例分析
2020/04/22 Javascript
[05:31]干嘛呢兄弟!DOTA2 TI9语音轮盘部分出处
2019/05/14 DOTA
Python使用dict.fromkeys()快速生成一个字典示例
2019/04/24 Python
python中的句柄操作的方法示例
2019/06/20 Python
Python调用scp向服务器上传文件示例
2019/12/22 Python
pytorch 多分类问题,计算百分比操作
2020/07/09 Python
通过python-pptx模块操作ppt文件的方法
2020/12/26 Python
机械制造与自动化应届生求职信
2013/11/16 职场文书
中学生学雷锋活动心得体会
2014/03/10 职场文书
团队激励口号
2014/06/06 职场文书
献爱心标语
2014/06/21 职场文书
诚实守信道德模范事迹材料
2014/08/15 职场文书
财务管理专业自荐书
2014/09/02 职场文书
写给父母的感谢信
2015/01/22 职场文书
教师党员自我评价2015
2015/03/04 职场文书
格列夫游记读书笔记
2015/07/01 职场文书
葬礼主持词
2015/07/02 职场文书
小学信息技术教学反思
2016/02/16 职场文书
高中数学教学反思范文
2016/02/18 职场文书