Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python ZipFile模块详解
Nov 01 Python
Python通过DOM和SAX方式解析XML的应用实例分享
Nov 16 Python
Python使用defaultdict读取文件各列的方法
May 11 Python
终端命令查看TensorFlow版本号及路径的方法
Jun 13 Python
对python3 一组数值的归一化处理方法详解
Jul 11 Python
学习python可以干什么
Feb 26 Python
Django框架基础模板标签与filter使用方法详解
Jul 23 Python
django之自定义软删除Model的方法
Aug 14 Python
python 调试冷知识(小结)
Nov 11 Python
Python3的unicode编码转换成中文的问题及解决方案
Dec 10 Python
基于python爬取链家二手房信息代码示例
Oct 21 Python
python 实现IP子网计算
Feb 18 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
ThinkPHP独立分组使用的注意事项
2014/11/25 PHP
PHP实现C#山寨ArrayList的方法
2015/07/16 PHP
PHP实现文件上传与下载实例与总结
2016/03/13 PHP
Thinkphp5框架使用validate实现验证功能的方法
2019/08/27 PHP
JavaScript下申明对象的几种方法小结
2008/10/02 Javascript
关于jQuery中的end()使用方法
2011/07/10 Javascript
JavaScript实现网页加载进度条代码超简单
2015/09/21 Javascript
jQuery mobile 移动web(4)
2015/12/20 Javascript
详解JavaScript for循环中发送AJAX请求问题
2020/06/23 Javascript
js Canvas实现圆形时钟教程
2016/09/19 Javascript
JS给Array添加是否包含字符串的简单方法
2016/10/29 Javascript
JS实现字符串转驼峰格式的方法
2016/12/16 Javascript
使用JavaScript触发过渡效果的方法
2017/01/19 Javascript
Canvas实现放射线动画效果
2017/02/15 Javascript
setTimeout函数的神奇使用
2017/02/26 Javascript
angularjs项目的页面跳转如何实现(5种方法)
2017/05/25 Javascript
Vue.js列表渲染绑定jQuery插件的正确姿势
2017/06/29 jQuery
JS解决IOS中拍照图片预览旋转90度BUG的问题
2017/09/13 Javascript
vue+element实现表格新增、编辑、删除功能
2019/05/28 Javascript
layui输入框只允许输入中文且判断长度的例子
2019/09/18 Javascript
Vue实现腾讯云点播视频上传功能的实现代码
2020/08/17 Javascript
JavaScript Blob对象原理及用法详解
2020/10/14 Javascript
[02:15]2014DOTA2国际邀请赛 专访LGD.lin小兔子是大腿
2014/07/14 DOTA
Python实现把utf-8格式的文件转换成gbk格式的文件
2015/01/22 Python
Python Django 页面上展示固定的页码数实现代码
2019/08/21 Python
Django中从mysql数据库中获取数据传到echarts方式
2020/04/07 Python
Python中的With语句的使用及原理
2020/07/29 Python
加拿大折扣、优惠券和交易网站:WagJag
2018/02/07 全球购物
11月红领巾广播稿
2014/01/17 职场文书
英文演讲稿
2014/05/15 职场文书
党员批评与自我批评材料
2014/10/14 职场文书
2014最新自愿离婚协议书范本
2014/11/19 职场文书
政协工作总结2015
2015/05/20 职场文书
2015年网管个人工作总结
2015/05/22 职场文书
2016年基层党组织公开承诺书
2016/03/25 职场文书
python中opencv实现图片文本倾斜校正
2021/06/11 Python