Python通过Tesseract库实现文字识别


Posted in Python onMarch 05, 2020

机器视觉

从Google的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广泛且具有深远的影响和雄伟的愿景的领域。

这里我们将重点介绍机器视觉的一个分支:文字识别。介绍如何用一些Python库来识别和使用在线图片中的文字。

我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数存贮器没法读取的图片,这时验证码(CAPTCHA)就出现了。验证码读取的难易程序也大不相同。

将图像翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR的底层库并不多,目前很多库都是使用共同的几个底层OCR库,或者是在上面进行定制。

OCR库概述

在读取和处理图像、图像相差的机器学习以及创建图像等任务中,Python一直都是非常出色的语言。虽然有很多库可以进行图像处理,但是这里我们只介绍Tesseract库。

Tesseract

Tesseract是一个OCR库,目前由Google赞助。Tesseract是目前公认最优秀、最精确的开源OCR系统。除了极高的精确度,Tesseract也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何Unicode字符。

安装Tesseract:Windows系统

下载可执行安装文件安装即可。

安装pytesseract

Tesseract是一个Python的命令行工具,不是通过import语句导入的库。安装之后,要用tesseract命令在Python的外面运行,但我们可以通过pip安装支持Python版本的Tesseract库:

pip install pytesseract

处理规范的文字

你要处理的大多数文字都是比较干净、格式规范的。格式霍英东的文字通常具有以下特点:

使用统一的标准字体(不包含手写体、草书或者十分“花哨”的字体),复印或者拍照但是字体清晰、没有多余的痕迹或者污点排列整齐,没有歪歪斜斜的字没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

文字的一些格式问题在图片预处理时可以进行解决。例如,可以把图片转换成灰度图,调整亮度和对比度,还可以根据需要进行裁剪和旋转,在这里不作介绍。

示例:

英文:

Python通过Tesseract库实现文字识别

识别结果的准确率还是挺高的。

通过Python代码实现

英文:

Python通过Tesseract库实现文字识别

中文:

Python通过Tesseract库实现文字识别

运行结果

This is some text, written in Arial, that will be read by
Tesseract. Here are some symbols: !@#$%"&*()
******************************
中 华 人 民 共 和 国

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python模块restful使用方法实例
Dec 10 Python
Python中SOAP项目的介绍及其在web开发中的应用
Apr 14 Python
Django日志模块logging的配置详解
Feb 14 Python
Python爬虫抓取代理IP并检验可用性的实例
May 07 Python
Python中一些不为人知的基础技巧总结
May 19 Python
python中实现字符串翻转的方法
Jul 11 Python
对Python subprocess.Popen子进程管道阻塞详解
Oct 29 Python
基于python调用psutil模块过程解析
Dec 20 Python
关于Tensorflow分布式并行策略
Feb 03 Python
Django Session和Cookie分别实现记住用户登录状态操作
Jul 02 Python
Python+OpenCV检测灯光亮点的实现方法
Nov 02 Python
浅谈怎么给Python添加类型标注
Jun 08 Python
Python爬虫实现模拟点击动态页面
Mar 05 #Python
python实现图片横向和纵向拼接
Mar 05 #Python
基于Python生成个性二维码过程详解
Mar 05 #Python
Python callable内置函数原理解析
Mar 05 #Python
python实现图像拼接
Mar 05 #Python
Python求两个字符串最长公共子序列代码实例
Mar 05 #Python
Python操作MongoDb数据库流程详解
Mar 05 #Python
You might like
QQ登录 PHP OAuth示例代码
2011/07/20 PHP
Yii使用技巧大汇总
2015/12/29 PHP
实例讲解如何在PHP的Yii框架中进行错误和异常处理
2016/03/17 PHP
php使用curl代理实现抓取数据的方法
2017/02/03 PHP
利用php生成验证码
2017/02/23 PHP
如何实现iframe(嵌入式帧)的自适应高度
2006/07/26 Javascript
jquery ajax return没有返回值的解决方法
2011/10/20 Javascript
jquery查找父元素、子元素(个人经验总结)
2014/04/09 Javascript
jquery bind(click)传参让列表中每行绑定一个事件
2014/08/06 Javascript
DOM基础教程之使用DOM + Css
2015/01/20 Javascript
详解AngularJS的通信机制
2015/06/18 Javascript
jQuery层次选择器用法示例
2016/09/09 Javascript
vue.js异步上传文件前后端实现代码
2017/08/22 Javascript
jQuery实现的粘性滚动导航栏效果实例【附源码下载】
2017/10/19 jQuery
解决Webpack 热部署检测不到文件变化的问题
2018/02/22 Javascript
webpack公共组件引用路径简化小技巧
2018/06/15 Javascript
Angular 多级路由实现登录页面跳转(小白教程)
2019/11/19 Javascript
jquery.validate自定义验证用法实例分析【成功提示与择要提示】
2020/06/06 jQuery
详解Python中的Descriptor描述符类
2016/06/14 Python
利用Python实现命令行版的火车票查看器
2016/08/05 Python
pycharm new project变成灰色的解决方法
2019/06/27 Python
Python中turtle库的使用实例
2019/09/09 Python
python删除指定列或多列单个或多个内容实例
2020/06/28 Python
Python numpy矩阵处理运算工具用法汇总
2020/07/13 Python
墨西哥运动服饰和鞋网上商店:Netshoes墨西哥
2016/07/28 全球购物
KARATOV珠宝在线商店:俄罗斯珠宝品牌
2019/03/13 全球购物
巴西电子、家电、智能手机购物网站:Girafa
2019/06/04 全球购物
迟到检讨书800字
2014/01/13 职场文书
年度考核自我鉴定
2014/02/02 职场文书
党员党性分析材料
2014/02/17 职场文书
学校元旦晚会方案
2014/02/19 职场文书
2014教师研修学习体会
2014/07/08 职场文书
2014年政风行风工作总结
2014/11/22 职场文书
计划生育工作总结2015
2015/04/03 职场文书
女人创业励志语录,句句蕴含能量,激发你的潜能
2019/08/20 职场文书
使用Redis做预定库存缓存功能
2022/04/02 Redis