Python图像处理之图片文字识别功能(OCR)


Posted in Python onJuly 30, 2019

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe  ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Python图像处理之图片文字识别功能(OCR) 

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。
最后是识别简体中文,需要事先安装简体中文语言包,下载地址为: https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata   ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

Python图像处理之图片文字识别功能(OCR) 

输入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

识别结果如下:

Python图像处理之图片文字识别功能(OCR) 

只识别错了一个字,识别率还是不错的。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)

运行结果如下:

Python图像处理之图片文字识别功能(OCR)

总结

以上所述是小编给大家介绍的Python图像处理之图片文字识别功能(OCR),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python处理cookie详解
Feb 07 Python
wxpython学习笔记(推荐查看)
Jun 09 Python
用python实现简单EXCEL数据统计的实例
Jan 24 Python
Python实现遍历目录的方法【测试可用】
Mar 22 Python
python中利用await关键字如何等待Future对象完成详解
Sep 07 Python
python实现kMeans算法
Dec 21 Python
python中numpy的矩阵、多维数组的用法
Feb 05 Python
Python数据结构之哈夫曼树定义与使用方法示例
Apr 22 Python
django使用haystack调用Elasticsearch实现索引搜索
Jul 24 Python
获取Pytorch中间某一层权重或者特征的例子
Aug 17 Python
pandas中DataFrame重置索引的几种方法
May 24 Python
python游戏开发Pygame框架
Apr 22 Python
python爬虫 爬取58同城上所有城市的租房信息详解
Jul 30 #Python
python join方法使用详解
Jul 30 #Python
python实现屏保程序(适用于背单词)
Jul 30 #Python
python实现各种插值法(数值分析)
Jul 30 #Python
Django 通过JS实现ajax过程详解
Jul 30 #Python
django 微信网页授权认证api的步骤详解
Jul 30 #Python
Python Pandas 如何shuffle(打乱)数据
Jul 30 #Python
You might like
几个学习PHP的网址
2006/11/25 PHP
Zend Framework前端控制器用法示例
2016/12/11 PHP
PHP实现根据密码长度显示安全条
2017/07/04 PHP
PHP开启目录引索+fancyindex漂亮目录浏览带搜索功能
2019/09/23 PHP
Internet Explorer 11 浏览器介绍:别叫我IE
2014/09/28 Javascript
推荐25个超炫的jQuery网格插件
2014/11/28 Javascript
基于JavaScript如何制作遮罩层对话框
2016/01/26 Javascript
yarn与npm的命令行小结
2016/10/20 Javascript
Bootstrap基本插件学习笔记之按钮(21)
2016/12/08 Javascript
基于jQuery封装的分页组件
2017/06/26 jQuery
详解小程序原生使用ES7 async/await语法
2018/08/06 Javascript
解决angularjs前后端分离调用接口传递中文时中文乱码的问题
2018/08/13 Javascript
jQuery实现的导航条点击后高亮显示功能示例
2019/03/04 jQuery
vxe-table vue table 表格组件功能
2019/05/26 Javascript
解决LayUI数据表格复选框不居中显示的问题
2019/09/25 Javascript
Vue 使用beforeEach实现登录状态检查功能
2019/10/31 Javascript
javascript实现拖拽碰撞检测
2020/03/12 Javascript
[07:49]2014DOTA2国际邀请赛 Newbee夺冠后采访xiao8坦言奖金会上交
2014/07/23 DOTA
Python函数式编程指南(一):函数式编程概述
2015/06/24 Python
Python迭代和迭代器详解
2016/11/10 Python
详解Django中六个常用的自定义装饰器
2018/07/04 Python
详解Python3 对象组合zip()和回退方式*zip
2019/05/15 Python
Python字典推导式将cookie字符串转化为字典解析
2019/08/10 Python
python给图像加上mask,并提取mask区域实例
2020/01/19 Python
django models里数据表插入数据id自增操作
2020/07/15 Python
python用tkinter实现一个gui的翻译工具
2020/10/26 Python
亚洲最大的眼镜批发商和零售商之一:Glasseslit
2018/10/08 全球购物
Otticanet意大利:最顶尖的世界名牌眼镜, 能得到打折季的价格
2019/03/10 全球购物
上班看电影检讨书
2014/02/12 职场文书
趣味运动会广播稿
2014/09/13 职场文书
客房部经理岗位职责
2015/02/02 职场文书
教师个人师德总结
2015/02/06 职场文书
傲慢与偏见电影观后感
2015/06/10 职场文书
高二化学教学反思
2016/02/22 职场文书
高端收音机+蓝牙音箱,JBL TUNER FM带收音蓝牙音箱评测
2021/04/24 无线电
python实现自动清理文件夹旧文件
2021/05/10 Python