编程 Python

基于Python实现对PDF文件的OCR识别

Posted in Python onAugust 05, 2016

最近在做一个项目的时候，需要将PDF文件作为输入，从中输出文本，然后将文本存入数据库中。为此，我找寻了很久的解决方案，最终才确定使用tesseract。所以不要浪费时间了，我们开始吧。

1.安装tesseract

在不同的系统中安装tesseract非常容易。为了简便，我们以Ubuntu为例。

在Ubuntu中你仅仅需要运行以下命令:

基于Python实现对PDF文件的OCR识别

这将会安装支持3种不同语言的tesseract。

2.安装PyOCR

现在我们还需要安装tesseract的Python接口。幸运的是，有许多出色的Python接口。

我们采用最新的一个：

基于Python实现对PDF文件的OCR识别

3.安装Wand和PIL

在我们开始之前，还需要另外安装两个依赖包。一个是Wand。它是Imagemagick的Python接口。

我们需要使用它来将PDF文件转换成图像：

基于Python实现对PDF文件的OCR识别

我们也需要PIL因为PyOCR需要使用它。你可以查看官方文档以确定如何将PIL安装到你的操作系统中。

4.热身

让我们开始我们的脚本吧。首先，我们需要导入一些重要的库：

基于Python实现对PDF文件的OCR识别

注意：我将从PIL导入的Image模块改名为PI了，因为如果不这样做的话，它将和wand.image模块发生重名冲突。

5.开始

现在我们需要获得OCR库（在本例中，即tesseract）的句柄以及我们在PyOCR中将使用的语言：

基于Python实现对PDF文件的OCR识别

我们使用tool.get_available_languages里的第二种语言，因为之前我曾尝试过，第二种语言就是英语。

接着，我们需要建立两个列表，用于存储我们的图像和最终的文本。

基于Python实现对PDF文件的OCR识别

下一步，我们需要采用wand将一个PDF文件转成jpeg文件。让我们试一试吧！

基于Python实现对PDF文件的OCR识别

注意：将PDF_FILE_NAME替换成当前路径下的一个可用的PDF文件名。

wand已经将PDF中所有的独立页面都转成了独立的二进制图像对象。我们可以遍历这个大对象，并把它们加入到req_image序列中去。

基于Python实现对PDF文件的OCR识别

现在，我们仅仅需要在图像对象上运行OCR即可，非常简单：

基于Python实现对PDF文件的OCR识别

现在，所有识别出的文本已经加到了final_text序列中了。你可以任意地使用它。以上就是利用Python对PDF文件做OCR识别的全部内容，希望这个教程能够帮助到你们！

英文原文：https://pythontips.com/2016/02/25/ocr-on-pdf-files-using-python/

译者：LuCima

基于Python实现对PDF文件的OCR识别

- Author -

daisy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python 字符串split的用法分享

Mar 23 Python

Python中为什么要用self探讨

Apr 14 Python

python获取本地计算机名字的方法

Apr 29 Python

Flask项目中实现短信验证码和邮箱验证码功能

Dec 05 Python

使用Python实现牛顿法求极值

Feb 10 Python

python实现门限回归方式

Feb 29 Python

如何使用PyCharm将代码上传到GitHub上(图文详解)

Apr 27 Python

Softmax函数原理及Python实现过程解析

May 22 Python

python装饰器实现对异常代码出现进行自动监控的实现方法

Sep 15 Python

浅谈python 类方法/静态方法

Sep 18 Python

python中Mako库实例用法

Dec 31 Python

PyQt QMainWindow的使用示例

Mar 24 Python

利用Python实现命令行版的火车票查看器

Aug 05 #Python

Python处理JSON数据并生成条形图

Aug 05 #Python

用Python解决计数原理问题的方法

Aug 04 #Python

快速入手Python字符编码

Aug 03 #Python

Python采用Django制作简易的知乎日报API

Aug 03 #Python

利用Python实现图书超期提醒

Aug 02 #Python

Python正规则表达式学习指南

Aug 02 #Python

You might like

中国站长站 For Dede4.0 采集规则

2007/05/27 PHP

php sprintf()函数让你的sql操作更安全

2008/07/23 PHP

PHP实现从远程下载文件的方法

2015/03/12 PHP

PHP实现搜索相似图片

2015/09/22 PHP

TP5(thinkPHP5)框架基于ajax与后台数据交互操作简单示例

2018/09/03 PHP

PHP5.0 TIDY_PARSE_FILE缓冲区溢出漏洞的解决方案

2018/10/14 PHP

thinkPHP框架RBAC实现原理分析

2019/02/01 PHP

PHP文件后缀不强制为.php方法

2019/03/31 PHP

图片格式的JavaScript和CSS速查手册

2007/08/20 Javascript

JavaScript中的事件处理

2008/01/16 Javascript

javascript 常用代码技巧大收集

2009/02/25 Javascript

firefox插件Firebug的使用教程

2010/01/02 Javascript

nodejs教程安装express及配置app.js文件的详细步骤

2013/05/11 NodeJs

javascript获取隐藏元素(display:none)的高度和宽度的方法

2014/06/06 Javascript

Javascript解析URL方法详解

2014/12/05 Javascript

jquery实现侧边弹出的垂直导航

2014/12/09 Javascript

深入探讨javascript函数式编程

2015/10/11 Javascript

JS中mouseover和mouseout多次触发问题如何解决

2016/06/06 Javascript

谈谈PHP中相对路径的问题与绝对路径的使用

2016/08/16 Javascript

强大Vue.js组件浅析

2016/09/12 Javascript

详解layui弹窗父子窗口之间传参数的方法

2018/01/16 Javascript

Express进阶之log4js实用入门指南

2018/02/10 Javascript

利用adb shell和node.js实现抖音自动抢红包功能(推荐)

2018/02/22 Javascript

vue2.0使用swiper组件实现轮播的示例代码

2018/03/03 Javascript

安装vue-cli的简易过程

2018/05/22 Javascript

vue实现未登录跳转到登录页面的方法

2018/07/17 Javascript

实例讲解v-if和v-show的区别

2019/01/31 Javascript

微信小程序实现3D轮播图效果（非swiper组件）

2019/09/21 Javascript

Python实现批量修改文件名实例

2015/07/08 Python

Python首次安装后运行报错(0xc000007b)的解决方法

2016/10/18 Python

python连接PostgreSQL过程解析

2020/02/09 Python

应届行政管理专业个人自我评价

2013/12/28 职场文书

教学大赛获奖感言

2014/01/15 职场文书

公司财务会计主管应聘求职信

2014/09/26 职场文书

2014年教师教学工作总结

2014/11/08 职场文书

MySQL表锁、行锁、排它锁及共享锁的使用详解

2022/04/02 MySQL