python如何将多个PDF进行合并


Posted in Python onAugust 13, 2019

背景

由于工作性质,经常面对不同的问题,某些场景下SQL+Excel、常用办公软件不能处理,这时到网上找一些案例,自己动手用python处理。后续,借此博客记录比较典型的处理过程。

后续,陆续实际处理的问题,如

1. 合并PDF
2. 拆分PDF
3. 敏感字段MD5脱敏
4. 从非架构化的大文本文件中提取指定条件的记录

需求

工作和生活中有时会遇到将多个pdf文件,合并成一个大文件的情况。例如,扫描时,普通扫描仪或打印机一页生成一个PDF,而一份资料实际多页。Adobe的收费版有合并功能,我们可以自己动手解决。根据网上搜索了几个合并pdf的例子,都是2.X环境下的程序,因此将部分函数替换为3.x环境下。

合并多个PDF的python

'''# -*- coding:utf-8*-'''
import sys
import importlib
importlib.reload(sys)

import os
import os.path
from PyPDF2 import PdfFileReader, PdfFileWriter 
import time
time1=time.time()

# 使用os模块walk函数,搜索出某目录下的全部pdf文件
######################获取同一个文件夹下的所有PDF文件名#######################
def getFileName(filepath):
 file_list = []
 for root,dirs,files in os.walk(filepath):
  for filespath in files:
   # print(os.path.join(root,filespath))
   file_list.append(os.path.join(root,filespath))

 return file_list



##########################合并同一个文件夹下所有PDF文件########################
def MergePDF(filepath,outfile):
 output=PdfFileWriter()
 outputPages=0
 in_file_path =filepath +r'input/'
 print(in_file_path)
 pdf_fileName=getFileName(in_file_path)
 i=0
 for each in pdf_fileName:
  i=i+1
  print(i,each)
  # 读取源pdf文件
  input = PdfFileReader(open(each, "rb"))

  # 如果pdf文件已经加密,必须首先解密才能使用pyPdf
  if input.isEncrypted == True:
   input.decrypt("map")

  # 获得源pdf文件中页面总数
  pageCount = input.getNumPages()
  outputPages += pageCount
  print("PageCount: ",pageCount)

  # 分别将page添加到输出output中
  for iPage in range(0, pageCount):
   output.addPage(input.getPage(iPage))


 print("All Pages Number:"+str(outputPages))
 # 最后写pdf文件
 out_file_path=filepath+r'output/'
 outputStream=open(out_file_path+outfile,"wb")
 output.write(outputStream)
 outputStream.close()
 print( "finished")


if __name__ == '__main__':
 file_dir = r'D:/扫描文件/'  # 待合并PDF 所在文件夹
 out=u"某某资料合并文件.pdf"  # 合并后文件名称
 MergePDF(file_dir,out)
 time2 = time.time()
 print( u'总共耗时:' + str(time2 - time1) + 's')

使用注意事项

1、程序第63行,默认指定了一个目录,“D:\扫描文件“,然后在其下建“\input”和“\output”两个子文件夹。
2、将待合并的pdf文件放在“\input”中,合并后的文件默认为“某某资料合并文件.pdf”,可在程序第64行修改你期望的文件名,合并后文件输出到“\output”。
3、合并多个文件时,合并顺序为文件名升序。

补充说明,如何使用python,建议学一本免费的电子书《编程小白的第一本Python入门书》,网上可搜。

最后,如果哪位朋友有兴趣,可以将程序第63和64行,加一个图形界面,用户在window下选择input 和output,选择输出文件名,然后做一个可执行文件。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python设计模式之单例模式实例
Apr 26 Python
Python中tell()方法的使用详解
May 24 Python
python抓取网站的图片并下载到本地的方法
May 22 Python
python实现输入数字的连续加减方法
Jun 22 Python
Django对数据库进行添加与更新的例子
Jul 12 Python
树莓派使用python-librtmp实现rtmp推流h264的方法
Jul 22 Python
利用rest framework搭建Django API过程解析
Aug 31 Python
python中p-value的实现方式
Dec 16 Python
django ObjectDoesNotExist 和 DoesNotExist的用法
Jul 09 Python
Java爬虫技术框架之Heritrix框架详解
Jul 22 Python
python 检测nginx服务邮件报警的脚本
Dec 31 Python
LeetCode189轮转数组python示例
Aug 05 Python
python批量读取文件名并写入txt文件中
Sep 05 #Python
Flask框架实现的前端RSA加密与后端Python解密功能详解
Aug 13 #Python
Python学习笔记之列表推导式实例分析
Aug 13 #Python
Django中create和save方法的不同
Aug 13 #Python
Python学习笔记之函数的定义和作用域实例详解
Aug 13 #Python
Python爬取智联招聘数据分析师岗位相关信息的方法
Aug 13 #Python
python基于json文件实现的gearman任务自动重启代码实例
Aug 13 #Python
You might like
php常用Output和ptions/Info函数集介绍
2013/06/19 PHP
PHP中的函数-- foreach()的用法详解
2013/06/24 PHP
Yii2 hasOne(), hasMany() 实现三表关联的方法(两种)
2017/02/15 PHP
PHP获取当前执行php文件名的代码
2017/03/02 PHP
php 函数使用可变数量的参数方法
2017/05/02 PHP
如何修改yii2.0自带的user表为其它的表
2017/08/01 PHP
Laravel 集成微信用户登录和绑定的实现
2019/12/27 PHP
filemanage功能中用到的lib.js
2007/04/08 Javascript
css图片自适应大小
2007/11/28 Javascript
jquery select下拉框操作的一些说明
2010/04/02 Javascript
JS 自定义带默认值的函数
2011/07/21 Javascript
Node.js实战 建立简单的Web服务器
2012/03/08 Javascript
JavaScript表格常用操作方法汇总
2015/04/15 Javascript
JS中数组重排序方法
2016/11/11 Javascript
Javascript基础回顾之(二) js作用域
2017/01/31 Javascript
使用Browserify来实现CommonJS的浏览器加载方法
2017/05/14 Javascript
vue在使用ECharts时的异步更新和数据加载详解
2017/11/22 Javascript
详解JavaScript 中 if / if...else...替换方式
2018/07/15 Javascript
JavaScript中的连续赋值问题实例分析
2019/07/12 Javascript
Python基本语法经典教程
2016/03/11 Python
Python基于ThreadingTCPServer创建多线程代理的方法示例
2018/01/11 Python
Python实现PS滤镜的旋转模糊功能示例
2018/01/20 Python
Python统计单词出现的次数
2018/04/04 Python
使用apiDoc实现python接口文档编写
2019/11/19 Python
django框架单表操作之增删改实例分析
2019/12/16 Python
Python扫描端口的实现
2021/01/25 Python
AmazeUI图片轮播效果的示例代码
2020/08/20 HTML / CSS
微软台湾官方网站:Microsoft台湾
2018/08/15 全球购物
匈牙利最大的健身制造商和销售商:inSPORTline
2018/10/30 全球购物
澳大利亚波西米亚风连衣裙在线商店:Fortunate One
2019/04/01 全球购物
英国DIY和家居装饰领域的主要品牌:Wickes
2019/11/26 全球购物
采购部部门职责
2013/12/15 职场文书
旷课检讨书大全
2014/01/21 职场文书
考试作弊检讨书1000字(5篇)
2014/10/19 职场文书
创业计划书之电动车企业
2019/10/11 职场文书
Vue.js中v-bind指令的用法介绍
2022/03/13 Vue.js