Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
仅用50行Python代码实现一个简单的代理服务器
Apr 08 Python
在Python的Flask框架中验证注册用户的Email的方法
Sep 02 Python
详细解读Python中解析XML数据的方法
Oct 15 Python
python中set常用操作汇总
Jun 30 Python
python对json的相关操作实例详解
Jan 04 Python
Python中list查询及所需时间计算操作示例
Jun 21 Python
详解python:time模块用法
Mar 25 Python
python flask web服务实现更换默认端口和IP的方法
Jul 26 Python
Python数学形态学实例分析
Sep 06 Python
python使用正则表达式(Regular Expression)方法超详细
Dec 30 Python
python GUI库图形界面开发之PyQt5信号与槽基本操作
Feb 25 Python
python脚本和网页有何区别
Jul 02 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
PHP脚本的10个技巧(5)
2006/10/09 PHP
PHP 得到根目录的 __FILE__ 常量
2008/07/23 PHP
php实现用已经过去多长时间的方式显示时间
2015/06/05 PHP
FCK调用方法..
2006/12/21 Javascript
js中使用DOM复制(克隆)指定节点名数据到新的XML文件中的代码
2011/07/27 Javascript
JavaScript如何从listbox里同时删除多个项目
2013/10/12 Javascript
利用jQuery简单实现产品展示图片左右滚动功能(示例代码)
2014/01/02 Javascript
JavaScript中反正弦函数Math.asin()的使用简介
2015/06/14 Javascript
一款简单的jQuery图片标注效果附源码下载
2016/03/22 Javascript
JQuery和HTML5 Canvas实现弹幕效果
2017/01/04 Javascript
AngularJS service之select下拉菜单效果
2017/07/28 Javascript
ionic3+Angular4实现接口请求及本地json文件读取示例
2017/10/11 Javascript
百度地图去掉marker覆盖物或者去掉maker的label文字方法
2018/01/26 Javascript
JS数组求和的常用方法总结【5种方法】
2019/01/14 Javascript
vue 动态组件用法示例小结
2020/03/06 Javascript
javascript事件循环event loop的简单模型解释与应用分析
2020/03/14 Javascript
如何利用JavaScript编写更好的条件语句详解
2020/08/10 Javascript
[02:20]2014DOTA2西雅图邀请赛 MVP外卡赛首胜采访
2014/07/09 DOTA
[01:05:41]EG vs Optic Supermajor 败者组 BO3 第二场 6.6
2018/06/07 DOTA
python中wx将图标显示在右下角的脚本代码
2013/03/08 Python
Python程序设计入门(3)数组的使用
2014/06/16 Python
python os用法总结
2018/06/08 Python
使用pandas实现csv/excel sheet互相转换的方法
2018/12/10 Python
python 产生token及token验证的方法
2018/12/26 Python
Python如何用filter函数筛选数据
2020/03/05 Python
最新大学生自我评价
2013/09/24 职场文书
2014五一国际劳动节活动总结范文
2014/04/14 职场文书
银行爱岗敬业演讲稿
2014/05/05 职场文书
师范生自荐信模板
2014/05/28 职场文书
2015新年寄语(一句话)
2014/12/08 职场文书
教师节感谢信
2015/01/22 职场文书
使用CSS3实现按钮悬停闪烁动态特效代码
2021/08/30 HTML / CSS
Python办公自动化解决world文件批量转换
2021/09/15 Python
nginx共享内存的机制详解
2022/03/21 Servers
python开发制作好看的时钟效果
2022/05/02 Python
Spring Security动态权限的实现方法详解
2022/06/16 Java/Android