Python图像处理之图片文字识别功能(OCR)


Posted in Python onJuly 30, 2019

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe  ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Python图像处理之图片文字识别功能(OCR) 

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。
最后是识别简体中文,需要事先安装简体中文语言包,下载地址为: https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata   ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

Python图像处理之图片文字识别功能(OCR) 

输入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

识别结果如下:

Python图像处理之图片文字识别功能(OCR) 

只识别错了一个字,识别率还是不错的。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)

运行结果如下:

Python图像处理之图片文字识别功能(OCR)

总结

以上所述是小编给大家介绍的Python图像处理之图片文字识别功能(OCR),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python sqlobject(mysql)中文乱码解决方法
Nov 14 Python
python中正则表达式的使用详解
Oct 17 Python
python通过正则查找微博@(at)用户的方法
Mar 13 Python
深入解析Python编程中JSON模块的使用
Oct 15 Python
Python的for和break循环结构中使用else语句的技巧
May 24 Python
Python在groupby分组后提取指定位置记录方法
Apr 20 Python
对numpy中的transpose和swapaxes函数详解
Aug 02 Python
python学生信息管理系统(完整版)
Apr 05 Python
如何基于Python获取图片的物理尺寸
Nov 25 Python
Django跨域资源共享问题(推荐)
Mar 09 Python
JetBrains PyCharm(Community版本)的下载、安装和初步使用图文教程详解
Mar 19 Python
使用keras实现非线性回归(两种加激活函数的方式)
Jul 05 Python
python爬虫 爬取58同城上所有城市的租房信息详解
Jul 30 #Python
python join方法使用详解
Jul 30 #Python
python实现屏保程序(适用于背单词)
Jul 30 #Python
python实现各种插值法(数值分析)
Jul 30 #Python
Django 通过JS实现ajax过程详解
Jul 30 #Python
django 微信网页授权认证api的步骤详解
Jul 30 #Python
Python Pandas 如何shuffle(打乱)数据
Jul 30 #Python
You might like
第十四节--命名空间
2006/11/16 PHP
php中有关字符串的4个函数substr、strrchr、strstr、ereg介绍和使用例子
2014/04/24 PHP
简单谈谈PHP中strlen 函数
2016/02/27 PHP
PHP 实现重载
2021/03/09 PHP
js资料prototype 属性
2007/03/13 Javascript
jQuery 自定义函数写法分享
2012/03/30 Javascript
JS定时器实例
2013/04/17 Javascript
如何使用Jquery获取Form表单中被选中的radio值
2013/08/09 Javascript
JavaScript中为什么null==0为false而null大于=0为true(个人研究)
2013/09/16 Javascript
jQuery 滑动方法slideDown向下滑动元素
2014/01/16 Javascript
使用js实现一个可编辑的select下拉列表
2014/02/20 Javascript
Jquery操作Ajax方法小结
2015/11/29 Javascript
jQuery代码实现对话框右上角菜单带关闭×
2016/05/03 Javascript
Bootstrap表格和栅格分页实例详解
2016/05/20 Javascript
Zabbix添加Node.js监控的方法
2016/10/20 Javascript
jQuery模拟完美实现经典FLASH导航动画效果【附demo源码下载】
2016/11/09 Javascript
jquery+html仿翻页相册功能
2016/12/20 Javascript
微信小程序 二维码canvas绘制实例详解
2017/01/06 Javascript
微信小程序 scroll-view实现锚点滑动的示例
2017/12/06 Javascript
JS设计模式之观察者模式实现实时改变页面中金额数的方法
2018/02/05 Javascript
简单了解JavaScript中的执行上下文和堆栈
2019/06/24 Javascript
解决echarts vue数据更新,视图不更新问题(echarts嵌在vue弹框中)
2020/07/20 Javascript
Python使用面向对象方式创建线程实现12306售票系统
2015/12/24 Python
Pycharm学习教程(3) 代码运行调试
2017/05/03 Python
python基于C/S模式实现聊天室功能
2019/01/09 Python
python用quad、dblquad实现一维二维积分的实例详解
2019/11/20 Python
python如何使用socketserver模块实现并发聊天
2019/12/14 Python
css3加js做一个简单的3D行星运转效果实例代码
2017/01/18 HTML / CSS
css3 flex布局 justify-content:space-between 最后一行左对齐
2020/01/02 HTML / CSS
武汉东之林科技有限公司机试
2013/09/17 面试题
某公司.Net方向面试题
2014/04/24 面试题
21岁生日感言
2014/02/27 职场文书
汽车机修工岗位职责
2014/03/06 职场文书
药学职务聘任书
2014/03/29 职场文书
六年级语文教学反思
2016/03/03 职场文书
人事行政部各岗位职责说明书!
2019/07/15 职场文书