编程 Python

Python利用PyPDF2库获取PDF文件总页码实例

Posted in Python onApril 03, 2020

Python中可以利用PyPDF2库来获取该pdf文件的总页码，可以根据下面的方法一步步进行下去：

1、首先，要安装PyPDF2库，利用以下命令即可：

pip install PyPDF2

2、接着，就是直接编写代码了，其中我新建了一个py文件，名为file_utils.py，代码如下：

from PyPDF2 import PdfFileReader
 
def get_num_pages(file_path):
 """
 获取文件总页码
 :param file_path: 文件路径
 :return:
 """
 reader = PdfFileReader(file_path)
 # 不解密可能会报错：PyPDF2.utils.PdfReadError: File has not been decrypted
 if reader.isEncrypted:
  reader.decrypt('')
 page_num = reader.getNumPages()
 return page_num

3、这样就可以获得该pdf文件的总页数了，但是需要传递文件路径进去，因为需要读取这个文件。

4、以上内容仅供学习参考，谢谢！

补充知识：使用python合并pdf文件带书签

1、需求：

将几本纸质书进行了扫描，可是扫描的每页生成一个pdf文件。需要怎么才能把这些pdf文件合成一个呢？adoba acrobat工具支持，可是收费。我们平时用的都是adoba reader，只有读pdf的功能没有合并等高级功能。网上的一些免费工具又担心有病毒或绑定程序。

所以考虑看看pyton实现。网上找了下python合并pdf的脚本，发现也没有添加书签的功能的，有添加书签的也不是很灵活。

所有对网上找的一个python程序进行了升级，可以实现合并pdf并每个章节加入书签。

文件准备：

先将扫描的pdf文件，每一章放到一个文件夹中，文件夹名字用章节名命名。这样最终程序就能将章节名作为书签了，而不是默认将每页都生成书签。

Python利用PyPDF2库获取PDF文件总页码实例

2、程序代码

代码运行环境：python3

需要安装PyPDF2包：pip install PyPDF2

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
'''
 本脚本用来合并pdf文件，支持带一级子目录的
 每章内容分别放在不同的目录下，目录名为章节名
 最终生成的pdf，按章节名生成书签
'''

import os, sys, codecs
from PyPDF2 import PdfFileReader, PdfFileWriter, PdfFileMerger
import glob

def getFileName(filepath):
 '''
  获取当前目录下的所有pdf文件
 '''
 file_list = glob.glob(filepath+"/*.pdf")
 # 默认安装字典序排序，也可以安装自定义的方式排序
 # file_list.sort()
 return file_list


def get_dirs(filepath='', dirlist_out=[], dirpathlist_out=[]):
 # 遍历filepath下的所有目录
 for dir in os.listdir(filepath):
  dirpathlist_out.append(filepath + '\\' + dir)

 return dirpathlist_out


def merge_childdir_files(path):
 '''
  每个子目录下合并生成一个pdf
 '''
 dirpathlist = get_dirs(path)
 if len(dirpathlist) == 0:
  print("当前目录不存在子目录")
  sys.exit()
 for dir in dirpathlist:
  mergefiles(dir, dir)


def mergefiles(path, output_filename, import_bookmarks=False):
 # 遍历目录下的所有pdf将其合并输出到一个pdf文件中，输出的pdf文件默认带书签，书签名为之前的文件名
 # 默认情况下原始文件的书签不会导入，使用import_bookmarks=True可以将原文件所带的书签也导入到输出的pdf文件中
 merger = PdfFileMerger()
 filelist = getFileName(path)
 if len(filelist) == 0:
  print("当前目录及子目录下不存在pdf文件")
  sys.exit()
 for filename in filelist:
  f = codecs.open(filename, 'rb')
  file_rd = PdfFileReader(f)
  short_filename = os.path.basename(os.path.splitext(filename)[0])
  if file_rd.isEncrypted == True:
   print('不支持的加密文件：%s'%(filename))
   continue
  merger.append(file_rd, bookmark=short_filename, import_bookmarks=import_bookmarks)
  print('合并文件：%s'%(filename))
  f.close()
 # out_filename = os.path.join(os.path.abspath(path), output_filename)
 merger.write(output_filename + ".pdf")
 print('合并后的输出文件：%s'%(output_filename))
 merger.close()

if __name__ == "__main__":
 # 每个章节一个子目录，先分别合并每个子目录文件为一个pdf，然后再将这些pdf合并为一个大的pdf，这样做目的是想生成每个章节的书签

 # 1.指定目录
 # 原始pdf所在目录
 path = "D:\spdf"
 # 输出pdf路径和文件名
 output_filename = "D:\spdf\战略规划 公司实现持续成功的方法、工具和实践 罗熙昶 2018-09"

 # 2.生成子目录的pdf
 # merge_childdir_files(path)

 # 3.子目录pdf合并为总的pdf
 mergefiles(path, output_filename)

3、程序使用

将要生成的pdf文件目录导入到程序指定目录下，例如我程序中的path是“D:\spdf”，然后指定最终输出的文件路径及文件名，我上面的output_filename是"D:\spdf\战略规划公司实现持续成功的方法、工具和实践罗熙昶 2018-09"

数据结果如下：

Python利用PyPDF2库获取PDF文件总页码实例

以上这篇Python利用PyPDF2库获取PDF文件总页码实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python利用PyPDF2库获取PDF文件总页码实例

- Author -

茕夜

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

200行自定义python异步非阻塞Web框架

Mar 15 Python

Django重装mysql后启动报错：No module named ‘MySQLdb’的解决方法

Apr 22 Python

python实现电脑自动关机

Jun 20 Python

python3爬虫怎样构建请求header

Dec 23 Python

python 将对象设置为可迭代的两种实现方法

Jan 21 Python

python3 打印输出字典中特定的某个key的方法示例

Jul 06 Python

解决Python pip 自动更新升级失败的问题

Feb 21 Python

python 异步async库的使用说明

May 04 Python

PythonPC客户端自动化实现原理(pywinauto)

May 28 Python

Python批量获取并保存手机号归属地和运营商的示例

Oct 09 Python

Python绘制数码晶体管日期

Feb 19 Python

浅谈Python类的单继承相关知识

May 12 Python

Numpy 理解ndarray对象的示例代码

Apr 03 #Python

python计算Content-MD5并获取文件的Content-MD5值方式

Apr 03 #Python

Django自定义列表 models字段显示方式

Apr 03 #Python

使用Django清空数据库并重新生成

Apr 03 #Python

Python基础类继承重写实现原理解析

Apr 03 #Python

Django实现列表页商品数据返回教程

Apr 03 #Python

Python第三方库的几种安装方式(小结)

Apr 03 #Python

You might like

咖啡知识除了喝咖啡还有那些知识点

2021/03/06 新手入门

通过PHP CLI实现简单的数据库实时监控调度

2009/07/01 PHP

分享下页面关键字抓取components.arrow.com站点代码

2014/01/30 PHP

php给一组指定关键词添加span标签的方法

2015/03/31 PHP

php验证邮箱和ip地址最简单方法汇总

2015/10/30 PHP

使用ltrace工具跟踪PHP库函数调用的方法

2016/04/25 PHP

Windows2003下php5.4安装配置教程（Apache2.4）

2016/06/30 PHP

WEB 浏览器兼容推荐收藏

2010/05/14 Javascript

jQuery获取文本节点之 text()/val()/html() 方法区别

2011/03/01 Javascript

js对table的td进行相同内容合并示例详解

2013/12/27 Javascript

查找页面中所有类为test的结点的方法

2014/03/28 Javascript

详解AngularJS中自定义指令的使用

2015/06/17 Javascript

jQuery技巧之让任何组件都支持类似DOM的事件管理

2016/04/05 Javascript

分享bootstrap学习笔记心得(组件及其属性)

2017/01/11 Javascript

Node.js实现连接mysql数据库功能示例

2017/09/15 Javascript

JavaScript实现随机数生成器（去重）

2017/10/13 Javascript

vue 之 css module的使用方法

2018/12/04 Javascript

vue.js 2.0实现简单分页效果

2019/07/29 Javascript

详解Nuxt内导航栏的两种实现方式

2020/04/16 Javascript

[01:08:17]2018DOTA2亚洲邀请赛3月29日小组赛B组 EG VS VGJ.T

2018/03/30 DOTA

python获取android设备的GPS信息脚本分享

2015/03/06 Python

Python第三方库xlrd/xlwt的安装与读写Excel表格

2017/01/21 Python

Python实现求笛卡尔乘积的方法

2017/09/16 Python

Pytorch实现基于CharRNN的文本分类与生成示例

2020/01/08 Python

Django Admin设置应用程序及模型顺序方法详解

2020/04/01 Python

调整Jupyter notebook的启动目录操作

2020/04/10 Python

Biblibili视频投稿接口分析并以Python实现自动投稿功能

2021/02/05 Python

canvas线条的属性详解

2018/03/27 HTML / CSS

英国最出名高街品牌：Forever Unique

2018/02/24 全球购物

英国排名第一的餐具品牌：Denby Pottery

2019/11/01 全球购物

小学绿色学校申报材料

2014/08/23 职场文书

作风建设年活动实施方案

2014/10/24 职场文书

2015年党建工作总结

2015/03/30 职场文书

2015年司机年终工作总结

2015/05/14 职场文书

老人院义工活动感想

2015/08/07 职场文书

详解vue身份认证管理和租户管理

2021/05/25 Vue.js