Python PyPDF2模块安装使用解析


Posted in Python onJanuary 19, 2020

这篇文章主要介绍了Python PyPDF2模块安装使用解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

PyPDF2模块主要的功能是分割或合并PDF文件,裁剪或转换PDF文件中的页面。

0、安装PyPDF2的模块

pip install PyPDF2

1、常用的函数

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time  : 2020/1/15 13:38
# @Author : suk
# @File  : pyxl.py
# @Software: PyCharm
import PyPDF2

reader = PyPDF2.PdfFileReader(open('linux.pdf', 'rb'))
print(reader.getNumPages()) # 获取pdf总页数
print(reader.isEncrypted) # 判断是否有加密
page = reader.getPage(4) # 获取第四页
print(page.extractText()) # 获取第四页的内容
print(reader.getDocumentInfo()) # 获取PDF元信息,即创建时间,作者,标题等

2、读取PDF文件,取指定页数,写入到硬盘上的示例

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import PyPDF2

reader = PyPDF2.PdfFileReader(open('linux.pdf', 'rb'))

output = PyPDF2.PdfFileWriter()

output.addPage(reader.getPage(1))
output.addPage(reader.getPage(4))
output.addPage(reader.getPage(5))
print(output.getNumPages()) # 获取写入页的总页数

output.encrypt('123456')
outputStream = open('PyPDF2-output.pdf', 'wb')
output.write(outputStream)
outputStream.close()

3、读取PDF某一页,旋转180度后,写入到新的PDF文件的示例

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import PyPDF2

reader = PyPDF2.PdfFileReader(open('linux.pdf', 'rb'))

page = reader.getPage(0) # 获取第0页
page.rotateClockwise(180) # 旋转180度

writer = PyPDF2.PdfFileWriter() # 创建PDF写入的对象
writer.addPage(page)

outputStream = open('rotate-page-test.pdf', 'wb') # 创建一个PDF文件
writer.write(outputStream) # 往文件写入PDF数据
outputStream.close() # 写入流

4、PDF增加水印的示例

注意:水印模板可以利用WORD文档写好文字,转为PDF即可

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import PyPDF2

reader = PyPDF2.PdfFileReader(open('linux.pdf', 'rb')) # 增加水印的原文件

watermark = PyPDF2.PdfFileReader(open('水印模板.pdf', 'rb')) # 水印的模板

writer = PyPDF2.PdfFileWriter() # 写入PDF的对象

for i in range(reader.getNumPages()):
  page = reader.getPage(i)
  page.mergePage(watermark.getPage(0)) # 将原文件与水印模板合并
  writer.addPage(page) # 增加到写入对象中

outputStream = open('watermark-test-linux.pdf', 'wb') # 打开一个写入硬盘的文件对象
writer.write(outputStream) # 将合并好的数据,写入硬盘中
outputStream.close() # 关闭文件句柄

测试效果

Python PyPDF2模块安装使用解析

5、合并多个指定的PDF文件的示例

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from PyPDF2 import PdfFileMerger

merger = PdfFileMerger() # 创建一个合并的对象

input1 = open('01PDF.pdf', 'rb')
input2 = open('02PDF.pdf', 'rb')
input3 = open('03PDF.pdf', 'rb')

merger.append(fileobj=input1, pages=(0, 3)) # 合并文件1的0到3页
merger.merge(position=2, fileobj=input2, pages=(0, 1)) # 合并文件2的0到1页
merger.append(fileobj=input3) # 合并文件的所有页

output = open('document-output.pdf', 'wb') # 保存硬盘上
merger.write(output) # 写入到硬盘上
output.close() # 关闭文件句柄

6、批量合并指定目录的PDF文件的示例

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import PyPDF2
import os
import glob

def get_all_pdf_files(path):
  """获取指定目录的所有pdf文件名"""
  all_pdfs = glob.glob('{0}/*.pdf'.format(path))
  all_pdfs.sort(key=str.lower) # 排序
  return all_pdfs

def main():
  path = os.getcwd()
  all_pdfs = get_all_pdf_files(path)
  if not all_pdfs:
    raise SystemExit('没有可用的PDF类型文件')

  merger = PyPDF2.PdfFileMerger()

  first_obj = open(all_pdfs[0], 'rb') # 打开第一个PDF文件
  merger.append(first_obj) # 增加到合并的对象中

  file_objs = []
  for pdf in all_pdfs[1:]: # 读取所有的文件对象
    file_objs.append(open(pdf, 'rb'))

  for file_obj in file_objs:
    reader = PyPDF2.PdfFileReader(file_obj)
    merger.append(fileobj=file_obj, pages=(1, reader.getNumPages()))

  outputStream = open('merge-pdfs.pdf', 'wb')
  merger.write(outputStream)
  outputStream.close()
  for file_obj in file_objs: # 批量关闭文件句柄
    file_obj.close()

if __name__ == '__main__':
  main()

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
分享一个常用的Python模拟登陆类
Mar 29 Python
Python批量重命名同一文件夹下文件的方法
May 25 Python
Python画图学习入门教程
Jul 01 Python
详解python之多进程和进程池(Processing库)
Jun 09 Python
django.db.utils.ProgrammingError: (1146, u“Table‘’ doesn’t exist”)问题的解决
Jul 13 Python
Django基础三之视图函数的使用方法
Jul 18 Python
Python 生成一个从0到n个数字的列表4种方法小结
Nov 28 Python
python with (as)语句实例详解
Feb 04 Python
Python 读取有公式cell的结果内容实例方法
Feb 17 Python
Django扫码抽奖平台的配置过程详解
Jan 14 Python
python使用scapy模块实现ping扫描的过程详解
Jan 21 Python
python在package下继续嵌套一个package
Apr 14 Python
详解python中各种文件打开模式
Jan 19 #Python
python opencv如何实现图片绘制
Jan 19 #Python
python实现加密的方式总结
Jan 19 #Python
TensorFlow tensor的拼接实例
Jan 19 #Python
python通过opencv实现图片裁剪原理解析
Jan 19 #Python
Python 一行代码能实现丧心病狂的功能
Jan 18 #Python
Python语法之精妙的十个知识点(装B语法)
Jan 18 #Python
You might like
推荐文章系统(一)
2006/10/09 PHP
PHP 执行系统外部命令 system() exec() passthru()
2009/08/11 PHP
仿Aspnetpager的一个PHP分页类代码 附源码下载
2012/10/08 PHP
php去掉URL网址中带有PHPSESSID的配置方法
2014/07/08 PHP
隐性调用php程序的方法
2015/06/13 PHP
PHP获取某个月最大天数(最后一天)的方法
2015/07/29 PHP
PHP输出Excel PHPExcel的方法
2018/07/26 PHP
js wmp操作代码小结(音乐连播功能)
2008/11/08 Javascript
js函数定时器实现定时读取系统实时连接数
2014/04/30 Javascript
JS实现超简单的鼠标拖动效果
2015/11/02 Javascript
让微信小程序支持ES6中Promise特性的方法详解
2017/06/13 Javascript
JavaScript中使用参数个数实现重载功能
2017/09/01 Javascript
webpack+react+antd脚手架优化的方法
2018/04/02 Javascript
基于React+Redux的SSR实现方法
2018/07/03 Javascript
详细介绍解决vue和jsp结合的方法
2020/02/06 Javascript
vue+elementUI实现简单日历功能
2020/09/24 Javascript
Python读写Excel文件方法介绍
2014/11/22 Python
Python中使用strip()方法删除字符串中空格的教程
2015/05/20 Python
举例详解Python中threading模块的几个常用方法
2015/06/18 Python
Python3实现并发检验代理池地址的方法
2016/09/18 Python
Python学习笔记之open()函数打开文件路径报错问题
2018/04/28 Python
Python 实现两个列表里元素对应相乘的方法
2018/11/14 Python
浅谈django不使用restframework自定义接口与使用的区别
2020/07/15 Python
Python SQLAlchemy库的使用方法
2020/10/13 Python
分享PyCharm最新激活码(真永久激活方法)不用每月找安装参数或最新激活码了
2020/12/27 Python
python 实现逻辑回归
2020/12/30 Python
canvas实现图片镜像翻转的2种方式
2020/07/22 HTML / CSS
美国家居装饰购物网站:Amanda Lindroth
2020/03/25 全球购物
电子商务专业学生的自我鉴定
2013/11/28 职场文书
大学生自助营养快餐店创业计划书
2014/01/13 职场文书
远程培训的心得体会
2014/09/01 职场文书
涉及车辆房产分割的离婚协议书范文
2014/10/12 职场文书
教师求职信怎么写
2015/03/20 职场文书
2019西餐厅创业计划书范文!
2019/07/12 职场文书
励志语录:你若不勇敢,谁替你坚强
2019/11/08 职场文书
深入理解go slice结构
2021/09/15 Golang