Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python脚本实现下载合并SAE日志
Feb 10 Python
python使用htmllib分析网页内容的方法
May 08 Python
python之matplotlib学习绘制动态更新图实例代码
Jan 23 Python
JavaScript实现一维数组转化为二维数组
Apr 17 Python
python 爬虫 批量获取代理ip的实例代码
May 22 Python
基于scrapy的redis安装和配置方法
Jun 13 Python
详解python算法之冒泡排序
Mar 05 Python
Django时区详解
Jul 24 Python
浅析python 定时拆分备份 nginx 日志的方法
Apr 27 Python
keras得到每层的系数方式
Jun 15 Python
基于Django快速集成Echarts代码示例
Dec 01 Python
利用Python+OpenCV三步去除水印
May 28 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
PHP json_decode函数详细解析
2014/02/17 PHP
php 模拟 asp.net webFrom 按钮提交事件实例
2014/10/13 PHP
PHP实践教程之过滤、验证、转义与密码详解
2017/07/24 PHP
Docker搭建自己的PHP开发环境
2018/02/24 PHP
Javascript实例教程(19) 使用HoTMetal(1)
2006/12/23 Javascript
jQuery控制TR显示隐藏的几种方法
2014/06/18 Javascript
图解JavaScript中的this关键字
2020/05/28 Javascript
微信小程序实现带刻度尺滑块功能
2017/03/29 Javascript
Vue按需加载的具体实现
2017/12/02 Javascript
Vue.js 的移动端组件库mint-ui实现无限滚动加载更多的方法
2017/12/23 Javascript
从parcel.js打包出错到选择nvm的全部过程
2018/01/23 Javascript
JS实现textarea通过换行或者回车把多行数字分割成数组并且去掉数组中空的值
2018/10/29 Javascript
在vue项目中引入vue-beauty操作方法
2019/02/11 Javascript
基于AngularJS拖拽插件ngDraggable.js实现拖拽排序功能
2019/04/02 Javascript
JS开发 富文本编辑器TinyMCE详解
2019/07/19 Javascript
Vue将props值实时传递 并可修改的操作
2020/08/09 Javascript
Node.js利用Express实现用户注册登陆功能(推荐)
2020/10/26 Javascript
解决vue-pdf查看pdf文件及打印乱码的问题
2020/11/04 Javascript
[01:03:56]Mineski vs TNC 2018国际邀请赛淘汰赛BO1 8.21
2018/08/22 DOTA
简介二分查找算法与相关的Python实现示例
2015/08/26 Python
python getopt详解及简单实例
2016/12/30 Python
Python实现图片拼接的代码
2018/07/02 Python
通过pykafka接收Kafka消息队列的方法
2018/12/27 Python
Python logging设置和logger解析
2019/08/28 Python
Python Socketserver实现FTP文件上传下载代码实例
2020/03/27 Python
如何在Python 游戏中模拟引力
2020/03/27 Python
基于Python实现视频的人脸融合功能
2020/06/12 Python
python 决策树算法的实现
2020/10/09 Python
python中_del_还原数据的方法
2020/12/09 Python
自动化系在校本科生求职信
2013/10/23 职场文书
资料员岗位职责
2013/11/17 职场文书
优秀班主任材料
2014/12/16 职场文书
2015年行风建设工作总结
2015/05/15 职场文书
付款证明格式范文
2015/06/19 职场文书
OpenCV全景图像拼接的实现示例
2021/06/05 Python
python创建字典及相关管理操作
2022/04/13 Python