编程 Python

利用python将图片版PDF转文字版PDF

Posted in Python onMay 03, 2019

图片版PDF无法复制,转化成文字版的PDF后使用更方便.

我们需要用到python3.6,pypdf2,ghostscript,PythonMagick,百度文字识别服务和pdfkit.

安装

安装python3.6 略

安装ghostscript

https://ghostscript.com/download/gsdnld.html

安装wkhtmltopdf

https://wkhtmltopdf.org/downloads.html

pip安装PyPDF2,ghostscript,baidu-aip,pdfkit

pip install PyPDF2
pip install ghostscript
pip install baidu-aip
pip install pdfkit

pip安装PythonMagick

https://www.lfd.uci.edu/~gohlke/pythonlibs/

cd 下载目录
pip install PythonMagick‑0.9.13‑cp36‑cp36m‑win_amd64.whl

pypdf2用于拆分和合并PDF

示例代码如下:

#导入PdfFileReader和PdfFileWriter
from PyPDF2 import PdfFileReader, PdfFileWriter
#获取一个pdf对象
pdf_input = PdfFileReader(open(r'pdf路径', 'rb'))
#获取pdf页数
page_count = pdf_input.getNumPages()
#获取pdf第四页的内容
page = pdf_input.getPage(3)
page['/Contents']
#获取一个pdfWriter对象
pdf_output = PdfFileWriter()
# 将一个 PageObject 加入到 PdfFileWriter 中
pdf_output.addPage(page)
#把新pdf保存
pdf_output.write(open(r'新pdf路径','wb'))

PythonMagick用于将单页PDF转化为jpg

百度云-文字识别-python SDK

每天有500次免费的识别
示例代码如下:

#导入baidu-aip
from aip import AipOcr
#https://console.bce.baidu.com/#/index/overview
#产品服务->人工智能->文字识别->创建应用
#获取以下三个值
APP_ID = '??'
API_KEY = '??'
SECRET_KEY = '?? '
#新建一个AipOcr
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
#读取本地图片的函数
def get_file_content(filePath):
  with open(filePath, 'rb') as fp:
    return fp.read()
#读取本地图片
image = get_file_content('p1.jpg')
#可选参数
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"
#通用文字识别
client.basicGeneral(image, options)

#读取网络图片
url = "https://note.youdao.com/yws/public/resource/1577071c1ffa2b6bf4e238ef6dbcfbf5/xmlnote/E5A19BEDFEBA4879B217C5BBF53B0245/22138"
#可选参数
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"
#通用文字识别
client.basicGeneralUrl(url, options)

#读取本地表格图片的函数
def get_file_content(filePath):
  with open(filePath, 'rb') as fp:
    return fp.read()
#读取本地表格图片
image = get_file_content('p2.jpg')
#可选参数
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "true"
options["detect_language"] = "true"
options["probability"] = "true"
#通用文字识别
client.basicGeneral(image, options)
#读取表格分割效果较差!

pdfkit用于利用字符串生成pdf
示例代码如下:

#pdfkit安装位置设置
path_wk = r'pdfkit安装位置设置'
pdfkit_config = pdfkit.configuration(wkhtmltopdf = path_wk)
#pdfkit参数
pdfkit_options = {'encoding': 'UTF-8',}
#制作PDF
pdfkit.from_string(('string'),'D:\test.pdf',configuration=pdfkit_config,options=pdfkit_options)

完整代码如下

#导入所需包

#os,操作文件和路径
import os
#ghostscript,代码简化
import ghostscript
#pypdf2,拆分pdf
from PyPDF2 import PdfFileReader, PdfFileWriter
#PythonMagick,单页PDF转图片
from PythonMagick import Image
#baidu-aip,百度文字识别
from aip import AipOcr
#pdfkit,字符串制作PDF
import pdfkit

#参数

path='??'
pdfname='??'
DPI='85'
#https://console.bce.baidu.com/#/index/overview
#产品服务->人工智能->文字识别->创建应用
#获取以下三个值
APP_ID = '??'
API_KEY = '??'
SECRET_KEY = '?? '
#pdfkit安装位置设置
path_wk = r'pdfkit安装位置设置'
pdfkit_config = pdfkit.configuration(wkhtmltopdf = path_wk)
#pdfkit参数
pdfkit_options = {'encoding': 'UTF-8',}

#PDF转化为图片

os.chdir(path)
pdf_input = PdfFileReader(open(pdfname, 'rb'))
#自动获取PDF页数
page_count = pdf_input.getNumPages()
page_range=range(page_count)
#也可以手工指定PDF需要转换的页数
#page_range=range(0,100)
#使用PyPDF和ghostscript
#==超级好用,超级直观,超级短==
for page_num in page_range:
  im = Image()
  im.density(DPI)
  im.read(pdfname + '[' + str(page_num) +']')
  im.write(str(page_num)+ '.jpg')

#图片转化为字符串

#新建一个AipOcr
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
#读取本地图片的函数
def get_file_content(filePath):
  with open(filePath, 'rb') as fp:
    return fp.read()
#可选参数
options = {}
options["language_type"] = "CHN_ENG"
options["detect_direction"] = "false"
options["detect_language"] = "false"
options["probability"] = "false"
allteststr=[]
for page_num in page_range:
  #读取本地图片
  image = get_file_content(r'%s\%s.jpg' % (path,page_num))
  #通用文字识别,得到的是一个dict
  testjson=client.basicGeneral(image, options)
  teststr=''
  for x in testjson['words_result']:
    teststr=teststr+x['words']+'</br>'
  allteststr.append(teststr)

#字符串写入PDF
for page_num in page_range:
  pdfkit.from_string((allteststr[page_num]),'%s.pdf' % (str(page_num)),configuration=pdfkit_config,options=pdfkit_options)
#合并单页PDF
pdf_output = PdfFileWriter()
for page_num in page_range:
  os.chdir(path)
  pdf_input = PdfFileReader(open('%s.pdf' % (str(page_num)), 'rb'))
  page = pdf_input.getPage(0)
  pdf_output.addPage(page)
pdf_output.write(open('newpdf.pdf','wb'))

以上就是为大家介绍的如何使用python3.6,pypdf2,ghostscript,PythonMagick,百度文字识别服务和pdfkit

利用python将图片版PDF转文字版PDF

- Author -

WDC

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python面向对象_详谈类的继承与方法的重载

Jun 07 Python

解决Linux系统中python matplotlib画图的中文显示问题

Jun 15 Python

python 系统调用的实例详解

Jul 11 Python

利用Hyperic调用Python实现进程守护

Jan 02 Python

python opencv旋转图像（保持图像不被裁减）

Jul 26 Python

django框架自定义用户表操作示例

Aug 07 Python

Django Rest framework之权限的实现示例

Dec 17 Python

python实现月食效果实例代码

Jun 18 Python

python用for循环求和的方法总结

Jul 08 Python

Python 实现取多维数组第n维的前几位

Nov 26 Python

Python3之乱码\xe6\x97\xa0\xe6\xb3\x95处理方式

May 11 Python

在Pytorch中使用Mask R-CNN进行实例分割操作

Jun 24 Python

Python3.0中普通方法、类方法和静态方法的比较

May 03 #Python

Python Flask框架模板操作实例分析

May 03 #Python

Python Flask框架扩展操作示例

May 03 #Python

Python安装Flask环境及简单应用示例

May 03 #Python

Python实现字典按key或者value进行排序操作示例【sorted】

May 03 #Python

Python3模拟curl发送post请求操作示例

May 03 #Python

零基础使用Python读写处理Excel表格的方法

May 02 #Python

You might like

Protoss建筑一览

2020/03/14 星际争霸

php 判断服务器操作系统的类型

2014/02/17 PHP

php+mysqli实现将数据库中一张表信息打印到表格里的方法

2015/01/28 PHP

php使用pclzip类实现文件压缩的方法(附pclzip类下载地址)

2016/04/30 PHP

PHP中str_split()函数的用法讲解

2019/04/11 PHP

jQuery之$(document).ready()使用介绍

2012/04/05 Javascript

jquery选择器、属性设置用法经验总结

2013/09/08 Javascript

jquery中常用的函数和属性详细解析

2014/03/07 Javascript

js中定义一个变量并判断其是否为空的方法

2014/05/13 Javascript

基于jquery的文字向上跑动类似跑马灯的效果

2014/09/22 Javascript

JS实现可缩放、拖动、关闭和最小化的浮动窗口完整实例

2015/03/04 Javascript

javascript委托(Delegate)blur和focus用法实例分析

2015/05/26 Javascript

Javascript技术栈中的四种依赖注入小结

2016/02/27 Javascript

jQuery中数据缓存$.data的用法及源码完全解析

2016/04/29 Javascript

使用JavaScript获取URL中的参数(两种方法)

2016/11/16 Javascript

Bootstrap实现圆角、圆形头像和响应式图片

2016/12/14 Javascript

BOM之navigator对象和用户代理检测

2017/02/10 Javascript

JS实现json对象数组按对象属性排序操作示例

2018/05/18 Javascript

[06:07]刀塔密之二：攻之吾命受之吾幸

2014/07/03 DOTA

Python实现端口复用实例代码

2014/07/03 Python

Python获取文件ssdeep值的方法

2014/10/05 Python

详解Python中最难理解的点-装饰器

2017/04/03 Python

Python编程使用tkinter模块实现计算器软件完整代码示例

2017/11/29 Python

Django错误：TypeError at / 'bool' object is not callable解决

2019/08/16 Python

python检查目录文件权限并修改目录文件权限的操作

2020/03/11 Python

TensorFlow2.X使用图片制作简单的数据集训练模型

2020/04/08 Python

丝芙兰法国官网：SEPHORA法国

2016/09/01 全球购物

企业行政文员岗位职责

2013/12/03 职场文书

教学改革实施方案

2014/03/31 职场文书

请假条的格式

2014/04/11 职场文书

小学生通知书评语

2014/12/31 职场文书

2015年度班主任自我评价

2015/03/11 职场文书

导游词之晋城蟒河

2019/12/12 职场文书

Pyhton模块和包相关知识总结

2021/05/12 Python

python中的3种定义类方法

2021/11/27 Python

Win11 引入 Windows 365 云操作系统，适应疫情期间混合办公模式：启动时直接登录、模

2022/04/06 数码科技