编程 Python

Python提取PDF指定内容并生成新文件

Posted in Python onJune 09, 2021

在之前的Python办公自动化案专题中，我们已经介绍了如何有选择的提取某些页面进行合并。

但是很多时候，我们并不会预知希望提取的页号，而是希望将包含指定内容的页面提取合并为新PDF，本文就以两个真实需求为例进行讲解。

01需求描述

数据是一份有286页的上市公司公开年报PDF，大致如下

Python提取PDF指定内容并生成新文件

现在需要利用 Python 完成以下两个需求

“
需求一：提取所有包含战略二字的页面并合并新PDF

需求二：提取所有包含图片的页面，并分别保存为 PDF 文件
”

02前置知识和逻辑梳理

2.1 PyPDF2 模块实现合并

PyPDF2 导入模块的代码常常是：

from PyPDF2 import PdfFileReader, PdfFileWriter

这里导入了两个方法：

PdfFileReader 可以理解为读取器
PdfFileWriter 可以理解为写入器

利用 PyPDF2 实现合并运用的一下逻辑：

读取器将所有pdf读取一遍
读取器将读取的内容交给写入器
写入器统一输出到一个新pdf

隐含知识点：读取器只能将读取的内容一页一页交给写入器

2.2 获取与添加页面

之前我们的推文中提到这两个代码，下面列出作为复习：

.getPage 获取特定页
.addPage 添加特定页

2.3 图片和文字的处理

要实现本文的需求还要做到很重要的一个判断：确定页面中有无包含的文字或图片

判断是否包含特定的文字比较简单，遍历每一页的时候都将包含的文本抽提出，做字符串层面的判断即可，代码思路：

利用 pdfplumber 打开PDF 文件
获取指定的页，或者遍历每一页
利用 .extract_text() 方法提取当前页的文字
判断 “战略” 是否在提取的文字中

判断是否包含图片，思路和上面是类似的，但方法不同。图片考虑用正则的方法识别，用 fitz 和 re 配合，具体见下文代码

03代码实现

3.1 需求一的实现

首先来完成需求一的任务，导入需要用到的库：读取写入PDF文件的 PyPDF2 以及抽提文本的 pdfplumber

from PyPDF2 import PdfFileReader, PdfFileWriter
import pdfplumber

指定文件所在的路径，同时初始化写入器，将文件交给读取器：

path = r'C:\xxxxxx'
pdf_writer = PdfFileWriter()
pdf_reader = PdfFileReader(path + r'\公司年报.PDF')

以上下文管理器形式通过 pdfplumber 打开文件，同时用 .getNumPages 获取读取器的最大页利于遍历每一页来抽提文字：

with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())

我们抽提文字的目的是用来判断，将符合要求的页码作为读取器 .getPage 的参数，最后用 .addPage 交给写入器：

with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())
        if '战略' in page.extract_text():
            pdf_writer.addPage(pdf_reader.getPage(i))
            print(i + 1, page.extract_text())

完成识别后让写入器输出为需要的文件名：

with open(path + r'\new_公司年报.pdf', 'wb') as out:
    pdf_writer.write(out)

至此，我们就完成了包含特定文字内容页面的提取，并整合成一个PDF。所有的页面均包含“战略”二字：

Python提取PDF指定内容并生成新文件

需求一完整代码如下，感兴趣的读者可以自行研究

from PyPDF2 import PdfFileReader, PdfFileWriter
import pdfplumber
 
path = r'C:\xxx'
pdf_writer = PdfFileWriter()
pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
 
with pdfplumber.open(path + r'\公司年报.PDF') as pdf:
    for i in range(pdf_reader.getNumPages()):
        page = pdf.pages[i]
        print(page.extract_text())
        if '战略' in page.extract_text():
            pdf_writer.addPage(pdf_reader.getPage(i))
            print(i + 1, page.extract_text())
 
with open(path + r'\new_公司年报1.pdf', 'wb') as out:
    pdf_writer.write(out)

3.2 需求二的实现

接下来完成需求二的任务。首先导入需要的库：

from PyPDF2 import PdfFileReader, PdfFileWriter
import fitz
import re
import os

指定文件所在的路径：

path = r'C:\xxxxxx'

正则识别图片的部分不细讲，之前的推文已经介绍过，我们直接看代码：

page_lst = []
checkImg = r"/Subtype(?= */Image)"
pdf = fitz.open(path + r'\公司年报.PDF')
lenXREF = pdf._getXrefLength()
 
for i in range(lenXREF):
    text = pdf._getXrefString(i)
    isImage = re.search(checkImg, text)
    if isImage:
        page_lst.append(i)
 
print(page_lst)

获取到所有包含图片的页面后，再结合读取器和写入器的配合就能完成新 PDF 的产生。注意本需求是所有图片单独输出，因此获取到页面后交给写入器直接输出成文件：

pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
for page in page_lst:
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    with open(path + r'\公司年报_{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

至此也完成了第二个需求。需要说明的是目前没有非常完美提取PDF图片的方法，本案例介绍的方法识别图片也并不稳定。读者可以利用自己的数据多做尝试。完整代码如下：

from PyPDF2 import PdfFileReader, PdfFileWriter
import fitz
import re
import os
 
path = r'C:\xxx'
 
page_lst = []
checkImg = r"/Subtype(?= */Image)"
pdf = fitz.open(path + r'\公司年报.PDF')
lenXREF = pdf._getXrefLength()
for i in range(lenXREF):
    text = pdf._getXrefString(i)
    isImage = re.search(checkImg, text)
    if isImage:
        page_lst.append(i)
 
print(page_lst)
 
pdf_reader = PdfFileReader(path + r'\公司年报.PDF')
for page in page_lst:
    pdf_writer = PdfFileWriter()
    pdf_writer.addPage(pdf_reader.getPage(page))
    with open(path + r'\公司年报_{}.pdf'.format(page + 1), 'wb') as out:
        pdf_writer.write(out)

实现这两个单个需求后，就可以将相关代码封装并结合os等模块实现批量操作，解放双手。

到此这篇关于Python提取PDF指定内容并生成新文件的文章就介绍到这了,更多相关Python提取PDF指定内容内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python提取PDF指定内容并生成新文件

- Author -

程序员启航

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python使用htpasswd实现基本认证授权的例子

Jun 10 Python

Python 的内置字符串方法小结

Mar 15 Python

Python 常用 PEP8 编码规范详解

Jan 22 Python

python实现字符串加密生成唯一固定长度字符串

Mar 22 Python

Python 余弦相似度与皮尔逊相关系数计算实例

Dec 23 Python

pytorch 中pad函数toch.nn.functional.pad()的用法

Jan 08 Python

简单了解python filter、map、reduce的区别

Jan 14 Python

python 实现线程之间的通信示例

Feb 14 Python

Django使用Profile扩展User模块方式

May 14 Python

五分钟学会怎么用Pygame做一个简单的贪吃蛇

Jan 06 Python

浅谈Python基础之列表那些事儿

May 11 Python

Python实现简单的猜单词

Jun 15 Python

Python激活Anaconda环境变量的详细步骤

Jun 08 #Python

Python序列化与反序列化相关知识总结

Jun 08 #Python

浅谈怎么给Python添加类型标注

Python如何导出导入所有依赖包详解

Jun 08 #Python

OpenCV-Python实现油画效果的实例

OpenCV-Python实现图像平滑处理操作

OpenCV-Python模板匹配人眼的实例

You might like

便携利器 — TECSUN PL-365简评

2021/03/02 无线电

特转载一高手总结PHP学习资源和链接.

2006/12/05 PHP

一步一步学习PHP(7) php 字符串相关应用

2010/03/05 PHP

教你php如何实现验证码

2016/01/20 PHP

php+js实现的无刷新下载文件功能示例

2019/08/23 PHP

javascript不同页面传值的改进版

2008/09/30 Javascript

javascript操作cookie的文章(设置，删除cookies)

2010/04/01 Javascript

js操纵dom生成下拉列表框的方法

2014/02/24 Javascript

JavaScript中的Math 使用介绍

2014/04/21 Javascript

jQuery实现回车键（Enter）切换文本框焦点的代码实例

2014/05/05 Javascript

解决自定义$(id)的方法与jquery选择器$冲突的问题

2014/06/14 Javascript

JS 打印功能代码可实现打印预览、打印设置等

2014/10/31 Javascript

JS基于Mootools实现的个性菜单效果代码

2015/10/21 Javascript

jQuery中iframe的操作(点击按钮新增窗口)

2016/04/20 Javascript

JavaScript中数组Array方法详解

2017/02/27 Javascript

Angular表格神器ui-grid应用详解

2017/09/29 Javascript

微信小程序图片轮播组件gallery slider使用方法详解

2018/01/31 Javascript

微信小程序6位或多位验证码密码输入框功能的实现代码

2018/05/29 Javascript

vue 搭建后台系统模块化开发详解

2019/05/01 Javascript

vue项目中使用多选框的实例代码

2020/07/22 Javascript

Vuex实现购物车小功能

2020/08/17 Javascript

[01:36]极致酷炫！TI9典藏宝瓶+撼地者至宝展示

2019/06/11 DOTA

Python中使用urllib2防止302跳转的代码例子

2014/07/07 Python

Python编程求质数实例代码

2018/01/31 Python

关于numpy.where()函数返回值的解释

2019/12/06 Python

python爬虫模拟浏览器的两种方法实例分析

2019/12/09 Python

python给图像加上mask,并提取mask区域实例

2020/01/19 Python

python中的 zip函数详解及用法举例

2020/02/16 Python

HTML5 直播疯狂点赞动画实现代码附源码

2020/04/14 HTML / CSS

警察先进个人事迹材料

2014/05/16 职场文书

平面设计专业求职信

2014/08/09 职场文书

机关作风整顿个人剖析材料

2014/10/06 职场文书

美容院合作经营协议书

2014/10/10 职场文书

2014年酒店工作总结与计划

2014/11/17 职场文书

推荐信范文大全

2015/03/27 职场文书

Java 异步任务计算FutureTask

2022/04/28 Java/Android