Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python在指定目录下查找gif文件的方法
May 04 Python
python3实现ftp服务功能(服务端 For Linux)
Mar 24 Python
Python爬虫获取整个站点中的所有外部链接代码示例
Dec 26 Python
pandas 选择某几列的方法
Jul 03 Python
解决Pycharm调用Turtle时 窗口一闪而过的问题
Feb 16 Python
python动态进度条的实现代码
Jul 03 Python
python调用c++返回带成员指针的类指针实例
Dec 12 Python
Python列表切片常用操作实例解析
Dec 16 Python
Python列表倒序输出及其效率详解
Mar 04 Python
Pycharm激活码激活两种快速方式(附最新激活码和插件)
Mar 12 Python
Python2.7:使用Pyhook模块监听鼠标键盘事件-获取坐标实例
Mar 14 Python
python 用opencv实现图像修复和图像金字塔
Nov 27 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
SONY ICF-SW7600的电路分析
2021/03/02 无线电
1.PHP简介
2006/10/09 PHP
php empty函数判断mysql表单是否为空
2010/04/12 PHP
php通过exif_read_data函数获取图片的exif信息
2015/05/21 PHP
Joomla开启SEF的方法
2016/05/04 PHP
PHP的swoole扩展安装方法详细教程
2016/05/18 PHP
PHP的cookie与session原理及用法详解
2019/09/27 PHP
one.php 多项目、函数库、类库 统一为一个版本的方法
2020/08/24 PHP
javascript Excel操作知识点
2009/04/24 Javascript
jquery判断字符输入个数(数字英文长度记为1,中文记为2,超过长度自动截取)
2010/10/15 Javascript
JS中处理与当前时间间隔的函数代码
2012/05/23 Javascript
鼠标选择动态改变网页背景颜色的JS代码
2013/12/10 Javascript
JS小游戏之象棋暗棋源码详解
2014/09/25 Javascript
jquery实现可横向和竖向展开的动态下滑菜单效果
2015/08/24 Javascript
js实现滑动到页面底部自动加载更多功能
2017/02/15 Javascript
Angular2利用组件与指令实现图片轮播组件
2017/03/27 Javascript
微信小程序 开发之全局配置
2017/05/05 Javascript
vuejs使用递归组件实现树形目录的方法
2017/09/30 Javascript
jQuery的Ajax接收java返回数据方法
2018/08/11 jQuery
JavaScript日期库date-fn.js使用方法解析
2020/09/09 Javascript
Python实现判断并移除列表指定位置元素的方法
2018/04/13 Python
浅谈python中字典append 到list 后值的改变问题
2018/05/04 Python
Django使用详解:ORM 的反向查找(related_name)
2018/05/30 Python
用python标准库difflib比较两份文件的异同详解
2018/11/16 Python
python内置模块collections知识点总结
2019/12/19 Python
简单了解django处理跨域请求最佳解决方案
2020/03/25 Python
python爬取网易云音乐热歌榜实例代码
2020/08/07 Python
Selenium关闭INFO:CONSOLE提示的解决
2020/12/07 Python
北卡罗来纳州豪华家具和家居装饰店:Carolina Rustica
2018/10/30 全球购物
阿玛尼美妆俄罗斯官网:Giorgio Armani Beauty RU
2020/07/19 全球购物
学校岗位设置方案
2014/01/16 职场文书
机电一体化专业毕业生自荐信
2014/06/19 职场文书
2014公安机关纪律作风整顿思想汇报
2014/09/13 职场文书
2016年第32个教师节红领巾广播稿
2015/12/18 职场文书
个人销售励志奋斗口号
2019/12/05 职场文书
Python实现Matplotlib,Seaborn动态数据图
2022/05/06 Python