Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python使用Berkeley DB数据库实例
Sep 26 Python
5种Python单例模式的实现方式
Jan 14 Python
python爬取网页转换为PDF文件
Jun 07 Python
Python3 利用requests 库进行post携带账号密码请求数据的方法
Oct 26 Python
python pandas库的安装和创建
Jan 10 Python
Python with用法:自动关闭文件进程
Jul 10 Python
Python列表的切片实例讲解
Aug 20 Python
python飞机大战pygame游戏背景设计详解
Dec 17 Python
python3 logging日志封装实例
Apr 08 Python
解决python3.x安装numpy成功但import出错的问题
Nov 17 Python
一篇文章带你了解Python和Java的正则表达式对比
Sep 15 Python
Python使用mitmproxy工具监控手机 下载手机小视频
Apr 18 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
基于php在各种web服务器的运行模式详解
2013/06/03 PHP
PHP中对各种加密算法、Hash算法的速度测试对比代码
2014/07/08 PHP
ThinkPHP使用Ueditor的方法详解
2016/05/20 PHP
php使用curl详细解析及问题汇总
2016/08/11 PHP
PHP7常量数组用法分析
2016/09/26 PHP
php类的自动加载操作实例详解
2016/09/28 PHP
php 数组元素快速去重
2017/05/05 PHP
PHP实现chrome表单请求数据转换为接口使用的json数据
2021/03/04 PHP
JavaScript 版本自动生成文章摘要
2008/07/23 Javascript
基于JQuery的模拟苹果桌面Dock效果(稳定版)
2012/10/15 Javascript
Javascript Boolean、Nnumber、String 强制类型转换的区别详细介绍
2012/12/13 Javascript
JS 两日期相减,获得天数的小例子(兼容IE,FF)
2013/07/01 Javascript
判断日期是否能跨月查询的js代码
2014/07/25 Javascript
javascript实现鼠标拖动改变层大小的方法
2015/04/30 Javascript
简介可以自动完成UI的AngularJS工具angular-smarty
2015/06/23 Javascript
jQuery toggle 代替方法
2016/03/22 Javascript
微信小程序使用picker实现时间和日期选择框功能【附源码下载】
2017/12/11 Javascript
js在HTML的三种引用方式详解
2020/08/29 Javascript
Node快速切换版本、版本回退(降级)、版本更新(升级)
2021/01/07 Javascript
python类中super()和__init__()的区别
2016/10/18 Python
使用Python进行AES加密和解密的示例代码
2018/02/02 Python
python 获取等间隔的数组实例
2019/07/04 Python
Python基于WordCloud制作词云图
2019/11/29 Python
numpy中生成随机数的几种常用函数(小结)
2020/08/18 Python
英国豪华针织品牌John Smedley的在线销售商:The Outlet by John Smedley
2018/04/08 全球购物
中专生自我鉴定
2013/12/17 职场文书
怎样写好自荐信和推荐信
2013/12/26 职场文书
污水厂厂长岗位职责
2014/01/04 职场文书
计算机数据库专业职业生涯规划书
2014/02/08 职场文书
法律进机关实施方案
2014/03/12 职场文书
书法兴趣小组活动总结
2014/07/07 职场文书
2014年重阳节老干部座谈会上的讲话稿
2014/09/25 职场文书
MySQL CHAR和VARCHAR该如何选择
2021/05/31 MySQL
pyqt5蒙版遮罩mask,setmask的使用
2021/06/11 Python
如何通过一篇文章了解Python中的生成器
2022/04/02 Python
Win10系统搭建ftp文件服务器详细教程
2022/08/05 Servers