Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python中字典dict常用操作方法实例总结
Apr 04 Python
使用Python的Flask框架表单插件Flask-WTF实现Web登录验证
Jul 12 Python
Python图像处理之识别图像中的文字(实例讲解)
May 10 Python
Python(Django)项目与Apache的管理交互的方法
May 16 Python
Python加载带有注释的Json文件实例
May 23 Python
基于python的图片修复程序(实现水印去除)
Jun 04 Python
基于python实现简单日历
Jul 28 Python
10 行 Python 代码教你自动发送短信(不想回复工作邮件妙招)
Oct 11 Python
详解Python字典的操作
Mar 04 Python
python3.7 sys模块的具体使用
Jul 22 Python
在OpenCV里使用特征匹配和单映射变换的代码详解
Oct 23 Python
Python如何实现的二分查找算法
May 27 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
Classes and Objects in PHP5-面向对象编程 [1]
2006/10/09 PHP
PHP 存储文本换行实现方法
2010/01/05 PHP
PHP5与MySQL数据库操作常用代码 收集
2010/03/21 PHP
php下连接ftp实现文件的上传、下载、删除文件实例代码
2010/06/03 PHP
PHP mail()函数使用及配置方法
2014/01/14 PHP
可以保证单词完整性的PHP英文字符串截取代码分享
2014/07/15 PHP
php获取当前url地址的方法小结
2017/01/10 PHP
JavaScript脚本性能优化注意事项
2008/11/18 Javascript
Javascript实现真实字符串剩余字数提示的实例代码
2013/10/22 Javascript
JS中prototype的用法实例分析
2015/03/19 Javascript
JQuery boxy插件在IE中边角图片不显示问题的解决
2015/05/20 Javascript
AngularJs实现ng1.3+表单验证
2015/12/10 Javascript
深入理解js promise chain
2016/05/05 Javascript
JS实现HTML标签转义及反转义
2020/04/14 Javascript
vue+element UI实现树形表格带复选框的示例代码
2019/04/16 Javascript
[03:04]2018年国际邀请赛典藏宝瓶&莱恩声望物品展示 片尾有彩蛋
2018/06/04 DOTA
[38:54]完美世界DOTA2联赛PWL S2 Rebirth vs LBZS 第一场 11.28
2020/12/01 DOTA
python实现带错误处理功能的远程文件读取方法
2015/04/29 Python
浅谈Django自定义模板标签template_tags的用处
2017/12/20 Python
Python使用装饰器模拟用户登陆验证功能示例
2018/08/24 Python
python requests爬取高德地图数据的实例
2018/11/10 Python
不到40行代码用Python实现一个简单的推荐系统
2019/05/10 Python
python文件转为exe文件的方法及用法详解
2019/07/08 Python
使用Python画出小人发射爱心的代码
2019/11/23 Python
Pycharm中配置远程Docker运行环境的教程图解
2020/06/11 Python
python的json包位置及用法总结
2020/06/21 Python
python爬虫使用scrapy注意事项
2020/11/23 Python
HTML5手机端弹出遮罩菜单特效代码
2016/01/27 HTML / CSS
AVON雅芳官网:世界上最大的美容化妆品公司之一
2016/11/02 全球购物
药学专业大学生自荐信
2013/09/28 职场文书
客服实习的个人自我鉴定
2013/10/20 职场文书
小学生防溺水广播稿
2014/01/12 职场文书
《水上飞机》教学反思
2014/04/10 职场文书
计划生育目标责任书
2015/05/09 职场文书
学术研讨会主持词
2015/07/04 职场文书
人生感悟经典句子
2019/08/20 职场文书