Python图像处理之图片文字识别功能(OCR)


Posted in Python onJuly 30, 2019

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe  ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Python图像处理之图片文字识别功能(OCR) 

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。
最后是识别简体中文,需要事先安装简体中文语言包,下载地址为: https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata   ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

Python图像处理之图片文字识别功能(OCR) 

输入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

识别结果如下:

Python图像处理之图片文字识别功能(OCR) 

只识别错了一个字,识别率还是不错的。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)

运行结果如下:

Python图像处理之图片文字识别功能(OCR)

总结

以上所述是小编给大家介绍的Python图像处理之图片文字识别功能(OCR),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
wxpython 学习笔记 第一天
Mar 16 Python
Python获取任意xml节点值的方法
May 05 Python
python微信跳一跳游戏辅助代码解析
Jan 29 Python
Python2和Python3.6环境解决共存问题
Nov 09 Python
numpy中的ndarray方法和属性详解
May 27 Python
实例详解Python模块decimal
Jun 26 Python
Python搭建Spark分布式集群环境
Jul 05 Python
python 使用plt画图,去除图片四周的白边方法
Jul 09 Python
Python基于class()实现面向对象原理详解
Mar 26 Python
基于keras中的回调函数用法说明
Jun 17 Python
浅析python字符串前加r、f、u、l 的区别
Jan 24 Python
pytorch 把图片数据转化成tensor的操作
Mar 04 Python
python爬虫 爬取58同城上所有城市的租房信息详解
Jul 30 #Python
python join方法使用详解
Jul 30 #Python
python实现屏保程序(适用于背单词)
Jul 30 #Python
python实现各种插值法(数值分析)
Jul 30 #Python
Django 通过JS实现ajax过程详解
Jul 30 #Python
django 微信网页授权认证api的步骤详解
Jul 30 #Python
Python Pandas 如何shuffle(打乱)数据
Jul 30 #Python
You might like
《星际争霸》各版本雷兽特点图文解析 雷兽不同形态一览
2020/03/02 星际争霸
PHP中的MYSQL常用函数(php下操作数据库必备)
2010/09/12 PHP
php模板函数 正则实现代码
2012/10/15 PHP
关于PHPDocument 代码注释规范的总结
2013/06/25 PHP
php中实现进程锁与多进程的方法
2016/09/18 PHP
yii2局部关闭(开启)csrf的验证的实例代码
2017/07/10 PHP
php设计模式之策略模式实例分析【星际争霸游戏案例】
2020/03/26 PHP
11个用于提高排版水平的基于jquery的文字效果插件
2012/09/14 Javascript
纯js和css实现渐变色包括静态渐变和动态渐变
2014/05/29 Javascript
JavaScript中对循环语句的优化技巧深入探讨
2014/06/06 Javascript
原生javaScript实现图片延时加载的方法
2014/12/22 Javascript
JavaScript实现简单图片翻转的方法
2015/04/17 Javascript
AngularJS基于MVC的复杂操作实例讲解
2017/12/31 Javascript
解决layui的radio属性或别的属性没显示出来的问题
2019/09/26 Javascript
[03:36]2014DOTA2 TI小组赛综述 八强诞生进军钥匙球馆
2014/07/15 DOTA
对numpy中数组元素的统一赋值实例
2018/04/04 Python
详解tensorflow载入数据的三种方式
2018/04/24 Python
python3使用SMTP发送简单文本邮件
2018/06/19 Python
python通过Windows下远程控制Linux系统
2018/06/20 Python
python实现textrank关键词提取
2018/06/22 Python
使用python采集脚本之家电子书资源并自动下载到本地的实例脚本
2018/10/23 Python
pandas.DataFrame的pivot()和unstack()实现行转列
2019/07/06 Python
Python 实现一个手机号码获取妹子名字的功能
2019/09/25 Python
Django框架安装及项目创建过程解析
2020/09/14 Python
Python使用pickle进行序列化和反序列化的示例代码
2020/09/22 Python
python des,aes,rsa加解密的实现
2021/01/16 Python
Street One瑞士:德国现代时装公司
2019/10/09 全球购物
浙大毕业生自荐信
2014/01/26 职场文书
绩效工资实施方案
2014/03/15 职场文书
《最佳路径》教学反思
2014/04/13 职场文书
幼儿园中班下学期评语
2014/04/18 职场文书
物流专业自荐信
2014/05/23 职场文书
学校重阳节活动总结
2015/03/24 职场文书
2019求职信大礼包
2019/05/15 职场文书
退休劳动合同怎么写?
2019/10/25 职场文书
JS轻量级函数式编程实现XDM三
2022/06/16 Javascript