编程 Python

20行Python代码实现一款永久免费PDF编辑工具的实现

Posted in Python onAugust 27, 2020

PDF（Portable Document Format），中文名称便携文档格式是我们经常会接触到的一种文件格式，文献、文档...很多都是PDF格式。它以格式稳定的优势，使得我们在打印、分享、传输过程中能够最优的保持原有色彩和格式。

PDF是以PostScript语言图像模型为基础的一种文档格式，它在格式的稳定性方面虽然具有很大优势。但是，在可编辑性方面却为使用者引入了另外一个困扰。

例如，在文档的分割、合并、剪切、转换、编辑等方面PDF就有些捉襟见肘了。

Adobe Reader、福昕阅读器、熊猫PDF...经常用到的PDF工具只能用于文档阅读，但是免费版都不可以用于文档编辑。虽然，网页版PDF工具，例如SmallPDF、I love PDF可以用于PDF的编辑，但是对于文档大小也有限制。

曾经，为了替换PDF中的一页，我几乎试遍了所有市面上主流的PDF工具，最终还是不得不选择使用付费工具来解决问题。

事后想了想，既然这些商业化软件不靠谱，为什么不考虑自己动手开发一款工具呢？明明几十行代码能够解决的问题，为什么要费那么多劲去下载、安装那些没有节操的软件呢？

本文就来介绍一下利用Python轻松开发一款PDF编辑工具，可以用于PDF转TxT、分割、合并、剪切、转换。

PyPDF2

PyPDF2是一个第三方的python PDF库，它能够对PDF文件进行分割、合并、裁剪和转换页面。

另外，它还可以对PDF文件添加自定义数据、水印、密码，也可以从PDF文件中检索出文本和元数据。

安装

使用pip直接安装：

$ pip install PyPDF2

下面就来演示几项PDF编辑功能，并且会逐行解释代码的含义。

删除PDF页

先给出实现代码，

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()   // 1
input1 = PdfFileReader(open("example.pdf", "rb")) // 2

def delete_pdf(index):
 pages = input1.getNumPages() // 3

 for i in range(pages):
 if i+1 in index:
  continue
 output.addPage(input1.getPage(i)) // 4

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream) // 5

delete_pdf([2,3,4])

下面来解释一下代码中的几个关键点：

声明一个用于输出PDF的实例；
读取本地PDF文件；
获取PDF文档的页数；
读取PDF的第i页，添加到输出output实例中；
把编辑后的文档保存到本地；

合并PDF

已经实现了删除PDF页，接下来就看一下如何把另外一个PDF中的页面合并到当前PDF中。

方法1：

可以沿着前面删除PDF页的方式进行拓展一下，对PDF进行合并。

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(open("example.pdf", "rb"))
input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1

def merge_pdf(add_index, origin_index):
 pages = input1.getNumPages()
 k = 0
 for i in range(pages):
 if i+1 in add_index:
  output.addPage(input2.getPage(origin_index[k])) // 2
  pages += 1
  k += 1
 output.addPage(input1.getPage(i))

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream)

merge_pdf([2,3,4], [0, 0, 0])

读取需要合并的源文件；

遍历到指定页，合并源PDF的页面；

方法2：

除了方法1，还有另外一种方法可以合并PDF：

from PyPDF2 import PdfFileMerger // 1

merger = PdfFileMerger()

input1 = open("document1.pdf", "rb") // 2
input2 = open("document2.pdf", "rb")
input3 = open("document3.pdf", "rb")

merger.append(fileobj = input1, pages = (0,3)) // 3

merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4

merger.append(input3) // 5

output = open("document-output.pdf", "wb")
merger.write(output)

导入PyPDF2合并模块PdfFileMerger;
读取需要处理和合并的PDF文档；
从第一个PDF文档中取出需要合并的前3页；
把第二个PDF文档的第一页插入到文档中；
把第三个PDF文档附到输出文档末尾；

除了上述介绍的2项主要功能，PyPDF2也有一些其他小功能：

旋转

input1.getPage(1).rotateClockwise(90)

使得页面1旋转90度。

添加水印

page = input1.getPage(3)
watermark = PdfFileReader(open("watermark.pdf", "rb"))
page.mergePage(watermark.getPage(0))

其中，水印存储在另外一个PDF文档watermark.pdf中。

加密

password = "secret"
output.encrypt(password)

首先给一个secret密码，然后使用encrypt对输出文档进行加密。

pdfminer

前面介绍的PyPDF2主要擅长于PDF页面级编辑，而对于文本和源数据级别编辑能力较弱。

所以，这里就来介绍另外一款Python库来弥补它的不足。

PDFMiner是一个PDF文档的文本提取工具，它具有如下特性：

能够准确获取文本的位置和布局信息；
可以将PDF转换为HTML/XML等格式；
可以提取目录；
可以提取标签内容；
支持各种字体类型（Type1、TrueType、Type3和CID）;
支持中、日、韩语言和垂直书写文本;

安装

$ pip install pdfminer

PDF转TxT

pdfminer在GitHub的托管项目中，在目录tools下给出了一些实用的工具集，例如，PDF转HTML、PDF转HTML、PDF转TXT。我们可以直接通过使用下面命令提出PDF文档中的文本信息。

$ pdf2txt.py samples/simple1.pdf

总结

通过上述2款Python库，就可以实现从页面到文本元数据的编辑，本文只是简单的介绍了每项的基本用法。关于详细的用法和函数列表，可以阅读官方文档，或者阅读GitHub上项目源码进行了解。此外，可以在这些基本的用法基础上进行发散思维，发掘更多有价值的应用场景，例如，提出文本数据之后调用翻译API进行文献翻译。也可以，对软件进行封装，开发成一款通用的PDF编辑工具。

到此这篇关于20行Python代码实现一款永久免费PDF编辑工具的实现的文章就介绍到这了,更多相关Python 免费PDF编辑工具内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

20行Python代码实现一款永久免费PDF编辑工具的实现

- Author -

小詹学 Python

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

详解Python中的循环语句的用法

Apr 09 Python

python检查指定文件是否存在的方法

Jul 06 Python

Python 模板引擎的注入问题分析

Jan 01 Python

浅谈python中的__init__、__new__和__call__方法

Jul 18 Python

django 按时间范围查询数据库实例代码

Feb 11 Python

PyQt5每天必学之关闭窗口

Apr 19 Python

使用pytorch进行图像的顺序读取方法

Jul 27 Python

Python----数据预处理代码实例

Mar 20 Python

Python操作qml对象过程详解

Sep 26 Python

使用Tensorboard工具查看Loss损失率

Feb 15 Python

详解基于Jupyter notebooks采用sklearn库实现多元回归方程编程

Mar 25 Python

keras分类模型中的输入数据与标签的维度实例

Jul 03 Python

基于python实现操作redis及消息队列

Aug 27 #Python

Python3如何在服务器打印资产信息

Aug 27 #Python

python 8种必备的gui库

Aug 27 #Python

Django静态文件加载失败解决方案

Aug 26 #Python

Python趣味入门教程之循环语句while

Aug 26 #Python

Python脚本实现Zabbix多行日志监控过程解析

Aug 26 #Python

如何把python项目部署到linux服务器

Aug 26 #Python

You might like

php 随机数的产生、页面跳转、件读写、文件重命名、switch语句

2009/08/07 PHP

php中\r \r\n \t的区别示例介绍

2014/02/08 PHP

php表单请求获得数据求和示例

2014/05/15 PHP

js null,undefined,字符串小结

2010/08/21 Javascript

JavaScript高级程序设计扩展--关于动态原型

2010/11/09 Javascript

『jQuery』.html(),.text()和.val()的概述及使用

2013/04/22 Javascript

Checbox的操作含已选、未选及判断代码

2013/11/07 Javascript

jquery实现拖拽调整Div大小

2015/01/30 Javascript

使用JavaScript实现连续滚动字幕效果的方法

2015/07/07 Javascript

javascript实现类似百度分享功能的方法

2015/07/27 Javascript

javascript针对cookie的基本操作实例详解

2015/11/30 Javascript

jquery.multiselect多选下拉框实现代码

2016/11/11 Javascript

网页中右键功能的实现方法之contextMenu的使用

2017/02/20 Javascript

Vue2.0组件间数据传递示例

2017/03/07 Javascript

JavaScript数据结构中串的表示与应用实例

2017/04/12 Javascript

使用async、enterproxy控制并发数量的方法详解

2018/01/02 Javascript

Vue使用高德地图搭建实时公交应用功能（地图 + 附近站点+线路详情 + 输入提示+换乘详情）

2018/05/16 Javascript

vue-router实现编程式导航的代码实例

2019/01/19 Javascript

angularjs自定义过滤器demo示例

2019/08/24 Javascript

js prototype深入理解及应用实例分析

2019/11/25 Javascript

javascript中可能用得到的全部的排序算法

2020/03/05 Javascript

JS原型对象操作实例分析

2020/06/06 Javascript

vue 使用lodash实现对象数组深拷贝操作

2020/09/10 Javascript

深入理解Python中命名空间的查找规则LEGB

2015/08/06 Python

Python中查看文件名和文件路径

2017/03/31 Python

Keras官方中文文档:性能评估Metrices详解

2020/06/15 Python

HTML5使用DOM进行自定义控制示例代码

2013/06/08 HTML / CSS

捷克领先的户外服装及配件市场零售商：ALPINE PRO

2018/01/09 全球购物

Python面试题：Python是如何进行内存管理的

2014/08/04 面试题

我们在web应用开发过程中经常遇到输出某种编码的字符，如iso8859-1等，如何输出一个某种编码的字符串？

2014/03/30 面试题

公司出纳岗位职责

2013/12/07 职场文书

洗发露广告词

2014/03/14 职场文书

2014最新毕业证代领委托书

2014/09/26 职场文书

庆祝三八妇女节标语

2014/10/09 职场文书

人事主管岗位职责

2015/02/04 职场文书

如何书写邀请函？

2019/06/24 职场文书