Python图像处理之图片文字识别功能(OCR)


Posted in Python onJuly 30, 2019

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe  ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Python图像处理之图片文字识别功能(OCR) 

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。
最后是识别简体中文,需要事先安装简体中文语言包,下载地址为: https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata   ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

Python图像处理之图片文字识别功能(OCR) 

输入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

识别结果如下:

Python图像处理之图片文字识别功能(OCR) 

只识别错了一个字,识别率还是不错的。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)

运行结果如下:

Python图像处理之图片文字识别功能(OCR)

总结

以上所述是小编给大家介绍的Python图像处理之图片文字识别功能(OCR),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python中精确输出JSON浮点数的方法
Apr 18 Python
Python中type的构造函数参数含义说明
Jun 21 Python
python排序函数sort()与sorted()的区别
Sep 18 Python
在python中实现对list求和及求积
Nov 14 Python
Python面向对象之类的封装操作示例
Jun 08 Python
python中字典按键或键值排序的实现代码
Aug 27 Python
Python通过递归获取目录下指定文件代码实例
Nov 07 Python
python 输出列表元素实例(以空格/逗号为分隔符)
Dec 25 Python
Django查询优化及ajax编码格式原理解析
Mar 25 Python
详解python定时简单爬取网页新闻存入数据库并发送邮件
Nov 27 Python
Pandas DataFrame求差集的示例代码
Dec 13 Python
OpenCV3.3+Python3.6实现图片高斯模糊
May 18 Python
python爬虫 爬取58同城上所有城市的租房信息详解
Jul 30 #Python
python join方法使用详解
Jul 30 #Python
python实现屏保程序(适用于背单词)
Jul 30 #Python
python实现各种插值法(数值分析)
Jul 30 #Python
Django 通过JS实现ajax过程详解
Jul 30 #Python
django 微信网页授权认证api的步骤详解
Jul 30 #Python
Python Pandas 如何shuffle(打乱)数据
Jul 30 #Python
You might like
理解php Hash函数,增强密码安全
2011/02/25 PHP
PHP中设置时区,记录日志文件的实现代码
2013/01/07 PHP
WordPress自定义时间显示格式
2015/03/27 PHP
thinkPHP模板引擎用法示例
2016/12/08 PHP
AppBaseJs 类库 网上常用的javascript函数及其他js类库写的
2010/03/04 Javascript
基于JQuery的多标签实现代码
2012/09/19 Javascript
ko knockoutjs动态属性绑定技巧应用
2012/11/14 Javascript
关于js遍历表格的实例
2013/07/10 Javascript
jquery.cookie用法详细解析
2013/12/18 Javascript
js获取input长度并根据页面宽度设置其大小及居中对齐
2014/08/22 Javascript
jQuery javascript获得网页的高度与宽度的实现代码
2016/04/26 Javascript
JavaScript对象封装的简单实现方法(3种方法)
2017/01/03 Javascript
canvas 弹幕效果(实例分享)
2017/01/11 Javascript
JS利用正则表达式实现简单的密码强弱判断实例
2017/06/16 Javascript
vue+springmvc导出excel数据的实现代码
2018/06/27 Javascript
使用 JavaScript 创建并下载文件(模拟点击)
2019/10/25 Javascript
全局安装 Vue cli3 和 继续使用 Vue-cli2.x操作
2020/09/08 Javascript
Python变量赋值的秘密分享
2018/04/03 Python
python实现维吉尼亚加密法
2019/03/20 Python
Python获取时间戳代码实例
2019/09/24 Python
浅谈Python type的使用
2019/11/19 Python
python通过移动端访问查看电脑界面
2020/01/06 Python
python判断元素是否存在的实例方法
2020/09/24 Python
柒牌官方商城:中国男装优秀品牌
2017/06/30 全球购物
JD Sports德国官网:英国领先的运动鞋和运动服饰零售商
2018/02/26 全球购物
美丽的现代设计家具:2Modern
2018/07/26 全球购物
毕业生个人求职信范文分享
2014/01/05 职场文书
求职意向书范文
2014/04/01 职场文书
个人工作主要事迹
2014/05/08 职场文书
募捐倡议书怎么写
2014/05/14 职场文书
2014年向国旗敬礼活动方案
2014/09/27 职场文书
研究生给导师的自荐信
2015/03/06 职场文书
销售区域经理岗位职责
2015/04/10 职场文书
Spring mvc是如何实现与数据库的前后端的连接操作的?
2021/06/30 Java/Android
Golang 实现WebSockets
2022/04/24 Golang
httpclient调用远程接口的方法
2022/08/14 Java/Android