Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python代码实现KNN算法
Dec 20 Python
Python OpenCV 直方图的计算与显示的方法示例
Feb 08 Python
浅谈dataframe中更改列属性的方法
Jul 10 Python
Python使用一行代码获取上个月是几月
Aug 30 Python
利用django+wechat-python-sdk 创建微信服务器接入的方法
Feb 20 Python
Python3字符串encode与decode的讲解
Apr 02 Python
树莓派+摄像头实现对移动物体的检测
Jun 22 Python
关于Python中的向量相加和numpy中的向量相加效率对比
Aug 26 Python
python3多线程知识点总结
Sep 26 Python
python3光学字符识别模块tesserocr与pytesseract的使用详解
Feb 26 Python
Tensorflow安装问题: Could not find a version that satisfies the requirement tensorflow
Apr 20 Python
Python读取Excel数据并生成图表过程解析
Jun 18 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
改写ThinkPHP的U方法使其路由下分页正常
2014/07/02 PHP
php实现的生成排列算法示例
2019/07/25 PHP
Extjs学习笔记之六 面版
2010/01/08 Javascript
JS运行耗时操作的延时显示方法
2010/11/19 Javascript
JavaScript 匿名函数(anonymous function)与闭包(closure)
2011/10/04 Javascript
jquery 插件学习(一)
2012/08/06 Javascript
JavaScript实现表格排序方法
2013/06/14 Javascript
浅谈 javascript 事件处理
2015/01/04 Javascript
JS和css实现检测移动设备方向的变化并判断横竖屏幕
2015/05/25 Javascript
原生js实现图片轮播特效
2015/12/18 Javascript
js创建jsonArray传输至后台及后台全面解析
2016/04/11 Javascript
JS修改地址栏参数实例代码
2016/06/14 Javascript
Vuex和前端缓存的整合策略详解
2017/05/09 Javascript
vue.js实现点击图标放大离开时缩小的代码
2021/01/27 Vue.js
[01:31](回顾)杀出重围,决战TI之巅
2014/07/01 DOTA
浅谈Python的list中的选取范围
2018/11/12 Python
如何更改 pandas dataframe 中两列的位置
2019/12/27 Python
Django单元测试中Fixtures的使用方法
2020/02/26 Python
Selenium 滚动页面至元素可见的方法
2020/03/18 Python
CSS中的字体大小设置属性总结
2016/05/24 HTML / CSS
美国电视购物HSN官网:HSN
2016/09/07 全球购物
印尼太阳百货公司网站:Matahari
2018/02/04 全球购物
计算机应用专业学生的自我评价分享
2013/11/03 职场文书
素食餐饮项目创业计划书
2014/02/02 职场文书
实习评语大全
2014/04/26 职场文书
教师考察材料范文
2014/06/03 职场文书
音乐之声音乐广播稿
2014/09/10 职场文书
党委书记个人对照检查材料
2014/09/15 职场文书
2014年团总支工作总结
2014/11/21 职场文书
自主招生推荐信怎么写
2015/03/26 职场文书
学生乘坐校车安全责任书
2015/05/11 职场文书
值班管理制度范本
2015/08/06 职场文书
员工工作心得体会
2019/05/07 职场文书
如何书写你的职业生涯规划书?
2019/06/27 职场文书
深入浅析Redis 集群伸缩原理
2021/05/15 Redis
Mysql 如何查询时间段交集
2021/06/08 MySQL