Python图像处理之图片文字识别功能(OCR)


Posted in Python onJuly 30, 2019

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe  ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Python图像处理之图片文字识别功能(OCR) 

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。
最后是识别简体中文,需要事先安装简体中文语言包,下载地址为: https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata   ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

Python图像处理之图片文字识别功能(OCR) 

输入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

识别结果如下:

Python图像处理之图片文字识别功能(OCR) 

只识别错了一个字,识别率还是不错的。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)

运行结果如下:

Python图像处理之图片文字识别功能(OCR)

总结

以上所述是小编给大家介绍的Python图像处理之图片文字识别功能(OCR),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
跟老齐学Python之编写类之一创建实例
Oct 11 Python
用ReactJS和Python的Flask框架编写留言板的代码示例
Dec 19 Python
详解python中requirements.txt的一切
Mar 03 Python
python里使用正则表达式的组嵌套实例详解
Oct 24 Python
python实现键盘控制鼠标移动
Nov 27 Python
OpenCV HSV颜色识别及HSV基本颜色分量范围
Mar 22 Python
python如何实现代码检查
Jun 28 Python
Python数据存储之 h5py详解
Dec 26 Python
Python post请求实现代码实例
Feb 28 Python
Python IDE环境之 新版Pycharm安装详细教程
Mar 05 Python
Win10下配置tensorflow-gpu的详细教程(无VS2015/2017)
Jul 14 Python
pandas使用函数批量处理数据(map、apply、applymap)
Nov 27 Python
python爬虫 爬取58同城上所有城市的租房信息详解
Jul 30 #Python
python join方法使用详解
Jul 30 #Python
python实现屏保程序(适用于背单词)
Jul 30 #Python
python实现各种插值法(数值分析)
Jul 30 #Python
Django 通过JS实现ajax过程详解
Jul 30 #Python
django 微信网页授权认证api的步骤详解
Jul 30 #Python
Python Pandas 如何shuffle(打乱)数据
Jul 30 #Python
You might like
简单采集了yahoo的一些数据
2007/02/14 PHP
PHP中usort在值相同时改变原始位置问题的解决方法
2011/11/27 PHP
PHP取整数函数常用的四种方法小结
2012/07/05 PHP
一个显示效果非常不错的PHP错误、异常处理类
2014/03/21 PHP
Fleaphp常见函数功能与用法示例
2016/11/15 PHP
js substr、substring和slice使用说明小记
2011/09/15 Javascript
Microsfot .NET Framework4.0框架 安装失败的解决方法
2013/08/14 Javascript
jquery原创弹出层折叠效果点击折叠弹出一个层
2014/03/12 Javascript
jQuery控制cookie过期时间的方法
2015/04/07 Javascript
jQuery固定元素插件scrolltofixed使用指南
2015/04/21 Javascript
微信小程序 scroll-view组件实现列表页实例代码
2016/12/14 Javascript
浅谈Angular.js中使用$watch监听模型变化
2017/01/10 Javascript
详解vue项目中实现图片裁剪功能
2019/06/07 Javascript
小程序按钮避免多次调用接口和点击方案实现(不用showLoading)
2020/04/15 Javascript
jQuery实现简单QQ聊天框
2020/08/27 jQuery
[01:54]TI珍贵瞬间系列(三):翻盘
2020/08/28 DOTA
Python的Django应用程序解决AJAX跨域访问问题的方法
2016/05/31 Python
python目录与文件名操作例子
2016/08/28 Python
Python实现的桶排序算法示例
2017/11/29 Python
python读取几个G的csv文件方法
2019/01/07 Python
使用Template格式化Python字符串的方法
2019/01/22 Python
python自定义线程池控制线程数量的示例
2019/02/22 Python
用pip给python安装matplotlib库的详细教程
2021/02/24 Python
HomeAway的巴西品牌:Alugue Temporada
2018/04/10 全球购物
亚马逊海外购:亚马逊美国、英国、日本、德国直邮
2021/03/18 全球购物
介绍一下Java中的static关键字
2012/05/12 面试题
八年级美术教学反思
2014/02/02 职场文书
村创先争优活动总结
2014/08/28 职场文书
介绍信怎么写
2015/01/30 职场文书
2015年度环卫处工作总结
2015/07/24 职场文书
2016年中秋节慰问信
2015/12/01 职场文书
《揠苗助长》教学反思
2016/02/20 职场文书
JS ES6异步解决方案
2021/04/29 Javascript
python实战之用emoji表情生成文字
2021/05/08 Python
linux中nohup和后台运行进程查看及终止
2021/06/24 Python
CSS文本阴影 text-shadow 悬停效果详解
2022/05/25 HTML / CSS