python识别图像并提取文字的实现方法


Posted in Python onJune 28, 2019

前言

python图像识别一般基础到的就是tesseract了,在爬虫中处理验证码广泛使用。

安装

安装教程网上大都差不多,Windows下确实比较麻烦,涉及到各种路径、环境变量甚至与linux不同的路径分隔符,所以这里的安装是基于Centos7。

1. 依赖安装

yum install -y automake autoconf libtool gcc gcc-c++

2. 安装leptonica

Leptonica主要用于图像处理和图像分析

原则上所有的库文件都是可以直接用yum安装的,如果想要具体的某个版本,可以前往官方源下载对应版本然后按照对应方式编译

wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz
tar -zxvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4/
./configure
make && make install

3. 安装tesseract

其他各版本可以在这里下载并自行编译,也提供直接使用的文件。

yum install tesseract

4. 验证安装

tesseract --version

5. 语言包下载

前往tesseract-ocr/tessdata下载相应的语言包,然后将之移动到tessdata目录下,可以用whereis tesseract查看一下具体的目录,我的是/usr/share/tesseract/tessdata/mv *.traineddata /usr/local/share/tessdata/

6. 查看目前已下载的语言

tesseract --list-langs

使用

# tesseract
Usage:
 tesseract --help | --help-psm | --help-oem | --version
 tesseract --list-langs [--tessdata-dir PATH]
 tesseract --print-parameters [options...] [configfile...]
 tesseract imagename|stdin outputbase|stdout [options...] [configfile...]

OCR options:
 --tessdata-dir PATH  Specify the location of tessdata path.
 --user-words PATH   Specify the location of user words file.
 --user-patterns PATH Specify the location of user patterns file.
 -l LANG[+LANG]    Specify language(s) used for OCR.
 -c VAR=VALUE     Set value for config variables.
            Multiple -c arguments are allowed.
 --psm NUM       Specify page segmentation mode.
 --oem NUM       Specify OCR Engine mode.
NOTE: These options must occur before any configfile.

语法

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
  • imagename:图片名字
  • outputbase:指定输出,如果希望直接输出而不是保存到文件,那么就使用 stdout,否则这个参数将会作为保存结果的文件的前缀
  • -l指定语言文件,默认使用英文
  • tesseract --print-parameters:查看更多参数信息
  • 使用-c指定单项参数的值或者将配置写入配置文件放在命令最后(支持多个配置文件)
  • psm 识别图像的方式

0:定向脚本监测(OSD)

1: 使用OSD自动分页

2 :自动分页,但是不使用OSD或OCR(Optical Character Recognition,光学字符识别)

3 :全自动分页,但是没有使用OSD(默认)

4 :假设可变大小的一个文本列。

5 :假设垂直对齐文本的单个统一块。

6 :假设一个统一的文本块。

7 :将图像视为单个文本行。

8 :将图像视为单个词。

9 :将图像视为圆中的单个词。

10 :将图像视为单个字符。

python中使用

Tesseract安装完成后可以很方便的被Python调用,但是需要pillow和pytesseract的支持。

python中转换

image_to_data(image, lang=None, config='', nice=0, output_type=Output.STRING)
  • image Object,由Tesseract处理的图像的PIL Image/NumPy数组
  • lang String,Tesseract语言代码字符串
  • config String,任何其他配置字符串,例如:config='--psm 6'
  • 语言文件可以叠加,用“+”隔开
  • 我们也可以在这里进行tessdata路径的设置,跟在config里面即可
  • 更多配置包括config和psm都和tesseract类似

实例:

流程: 打开图片,配置,转换,可以通过Image的open或者cv2的imread打开图片,之后对图片进行对比度增强,降噪等处理,效果会好一些。

from PIL import Image
import pytesseract
class Languages:
  CHS = 'chi_sim'
  ENG = 'eng'
def img_to_str(image_path, lang=Languages.ENG):
  return pytesseract.image_to_string(Image.open(image_path), lang)
print(img_to_str('pic/numu.png', lang=Languages.ENG))
print(img_to_str('pic/pro.png', lang=Languages.ENG))

python识别图像并提取文字的实现方法

python识别图像并提取文字的实现方法

总结

简单的文本识别效果还是不错的,但是设计到多空行、符号等,识别效果就不是太好了,准确度方面可以通过对字库的训练达到想要的效果,之后对获取到的文本利用诸如re等各种库进行操作,其实应用还蛮广泛的。2. 但是它在验证码方面的话效果还是不错的,验证码的话tesserocr也是比较方面的.

识别中文可能会出现编码错误,这也是识别上的漏洞之一了,网上大佬们所说的改变文本的编码似乎并不能解决问题,所以对长文本图片处理还是不太建议直接转换。

图文处理也可以借鉴一些各平台的API,百度、腾讯、美团都有支持.

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
举例讲解Python中的算数运算符的用法
May 13 Python
使用Python脚本和ADB命令实现卸载App
Feb 10 Python
python 换位密码算法的实例详解
Jul 19 Python
Python cookbook(数据结构与算法)保存最后N个元素的方法
Feb 13 Python
浅谈Python接口对json串的处理方法
Dec 19 Python
关于Python中的向量相加和numpy中的向量相加效率对比
Aug 26 Python
selenium+PhantomJS爬取豆瓣读书
Aug 26 Python
python爬虫开发之使用Python爬虫库requests多线程抓取猫眼电影TOP100实例
Mar 10 Python
Python检测端口IP字符串是否合法
Jun 05 Python
Python生成随机验证码代码实例解析
Jun 09 Python
总结Pyinstaller的坑及终极解决方法(小结)
Sep 21 Python
Python获取字典中某个key的value
Apr 13 Python
python3射线法判断点是否在多边形内
Jun 28 #Python
python opencv 批量改变图片的尺寸大小的方法
Jun 28 #Python
python如何实现代码检查
Jun 28 #Python
python射线法判断一个点在图形区域内外
Jun 28 #Python
Python OpenCV之图片缩放的实现(cv2.resize)
Jun 28 #Python
如何使用Python 打印各种三角形
Jun 28 #Python
python射线法判断检测点是否位于区域外接矩形内
Jun 28 #Python
You might like
PHP简单生成缩略图相册的方法
2015/07/29 PHP
Laravel中如何轻松容易的输出完整的SQL语句
2020/07/26 PHP
js获取当前页面的url网址信息
2014/06/12 Javascript
js中使用replace方法完成某个字符的转换
2014/08/20 Javascript
javascript瀑布流式图片懒加载实例解析与优化
2016/02/23 Javascript
js实现表单及时验证功能 用户信息立即验证
2016/09/13 Javascript
微信小程序 表单Form实例详解(附源码)
2016/12/22 Javascript
详解bootstrap的modal-remote两种加载方式【强化】
2017/01/27 Javascript
JavaScript队列函数和异步执行详解
2017/06/19 Javascript
Javascript实现基本运算器
2017/07/15 Javascript
原生JS+CSS实现炫酷重力模拟弹跳系统的登录页面
2017/11/01 Javascript
Vue触发式全局组件构建的方法
2018/11/28 Javascript
js中的reduce()函数讲解
2019/01/18 Javascript
VUE组件中的 Drawer 抽屉实现代码
2019/08/06 Javascript
详解Vue中Axios封装API接口的思路及方法
2020/10/10 Javascript
详解Python中的文件操作
2016/08/28 Python
python爬虫实战之爬取京东商城实例教程
2017/04/24 Python
Python cookbook(数据结构与算法)同时对数据做转换和换算处理操作示例
2018/03/23 Python
详解Python3.6的py文件打包生成exe
2018/07/13 Python
使用python进行广告点击率的预测的实现
2019/07/04 Python
Python编程快速上手——疯狂填词程序实现方法分析
2020/02/29 Python
Jupyter Notebook 实现正常显示中文和负号
2020/04/24 Python
python 元组的使用方法
2020/06/09 Python
利用Python实现学生信息管理系统的完整实例
2020/12/30 Python
Python与C/C++的相互调用案例
2021/03/04 Python
印度婴儿用品在线商店:Firstcry.com
2016/12/05 全球购物
Deux par Deux官方网站:设计师童装
2020/01/03 全球购物
SQL Server 2000数据库的文件有哪些,分别进行描述。
2015/11/09 面试题
面料业务员岗位职责
2013/12/26 职场文书
cf收人广告词大全
2014/03/14 职场文书
毕业自我鉴定书
2014/03/24 职场文书
生日庆典策划方案
2014/06/02 职场文书
民主生活会对照检查材料
2014/09/22 职场文书
开学第一天的感想
2015/08/10 职场文书
MySql数据库 查询时间序列间隔
2022/05/11 MySQL
Sentry的安装、配置、使用教程(Sentry日志手机系统)
2022/07/23 Python