PyPDF2读取PDF文件内容保存到本地TXT实例


Posted in Python onMay 12, 2020

我就废话不多说了,大家还是直接看代码吧!

from PyPDF2.pdf import PdfFileReader
import pandas as pd

def Pdf_to_txt(pdf):

  for i in range(0, pdf.getNumPages()):
    title = []
    lin1, lin2, lin3, lin4, lin5, lin6, lin7, lin8 = [], [], [], [], [], [], [], []
    extractedText = pdf.getPage(i).extractText()
    text = extractedText.split('\n')
    num = 0
    for lin in text:
      if num == 0:
        title.append(lin)
      elif num == 1:
        lin1.append(lin)
      elif num == 2:
        lin2.append(lin)
      elif num == 3:
        lin3.append(lin)
      elif num == 4:
        lin4.append(lin)
      elif num == 5:
        lin5.append(lin)
      elif num == 6:
        lin6.append(lin)
      elif num == 7:
        lin7.append(lin)
      elif num == 8:
        lin8.append(lin)
        num = 0
      num += 1
    Lin_num = len(lin8)
    data = {'Lin1': lin1[:Lin_num], 'Lin2': lin2[:Lin_num], 'Lin3': lin3[:Lin_num], 'Lin4': lin4[:Lin_num], 'Lin5': lin5[:Lin_num], 'Lin6': lin6[:Lin_num], 'Lin7': lin7[:Lin_num], 'Lin8': lin8[:Lin_num]}
    df = pd.DataFrame(data, columns=['Lin1', 'Lin2', 'Lin3', 'Lin4', 'Lin5', 'Lin6', 'Lin7', 'Lin8'])
    file_name = title[0] + '_page' + str((i + 1))
    df.to_csv('tool/pdf解析/%s.txt' % file_name, index=False, sep='\t')


if __name__ == '__main__':
  filename = 'E:/SVN/采集框架V2/analyse_code/政策/pdf/con026465.pdf'
  pdf = PdfFileReader(open(filename, "rb"))
  Pdf_to_txt(pdf)

补充知识:使用PyPDF2库对pdf文件进行指定页面删除操作

平台:win10家庭版,python 3.7,PyPDF2

思维过程:

方法一:将pdf文件通过拆分为单页,放入一个文件夹,再删除其中不要的文件,最后再把剩余的文件进行合并为一个pdf文件

第一步:使用原文件路径创建新文件夹,用于存放拆分后的单页文件

def newdir(self,path):
     self.new = os.path.splitext(path)[0]
     if not os.path.isdir(self.new): #使用os.path.isdir判断文件夹是否存在,
       os.mkdir(self.new)

第二步:生成单页文件,并存放到新建的文件夹

def pdfsplt(self,path):
          if os.path.isfile(path):
              file_1 = open(path,"rb")
              file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
              #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
              for page in range(0,file_reader.getNumPages()):
                file_write = PyPDF2.PdfFileWriter()
                pageobj = file_reader.getPage(page)
                file_write.addPage(pageobj)
                output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
                with open(output,"wb") as output_pdf:
                    file_write.write(output_pdf)
              file_1.close()
          else:
              print("文件不存在!")
             time.sleep(3)
              exit()

第三步:删除文件夹中不要的文件

def pdfremove(self,number):
  for pag in number:
    filename = str(self.new) + "\\" + str(pag) + ".pdf"
    if os.path.isfile(filename):
      os.unlink(filename)
    else:
      print("请确认要删除的页码%s是否正确!!"%pag)

第四步:把剩余文件合并为一个pdf文件

def pdfmerge(self):
  file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #读取新建文件夹下的所有文件并提取文件名转为数字
  file_write = PyPDF2.PdfFileWriter() #先创建一个新的pdf对象
  for page in sorted(file_list):
    pathstr = str(self.new) + "\\" + str(page) + ".pdf"
    file_1 = open(pathstr,"rb")
    file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # 使用strict关闭错误提示
    pageobj = file_reader.getPage(0)
    file_write.addPage(pageobj)
    output = str(self.new) + "_new.pdf"
    with open(output, "wb") as output_pdf:
      file_write.write(output_pdf)
      print("第%s页完成"%page)
    file_1.close()

第五步:删除其中的缓存文件夹

def rmdir(self):
  if os.path.isdir(self.new):
    shutil.rmtree(self.new)

方法一的完整代码:

import PyPDF2
import os,time,shutil,sys
import threading

class mypdf(object):
  def __init__(self,path,number):
    self.newdir(path)
    self.pdfsplt(path)
    self.pdfremove(number)
    self.pdfmerge()
    self.rmdir()
    pass

  #用于创建一个独立的文件夹,存放缓存数据
  def newdir(self,path):
    self.new = os.path.splitext(path)[0]
    if not os.path.isdir(self.new): #使用os.path.isdir判断文件夹是否存在,
      os.mkdir(self.new)

  #将每一页生成独立文件,存放到缓存文件夹
  def pdfsplt(self,path):
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
      #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
      for page in range(0,file_reader.getNumPages()):
        file_write = PyPDF2.PdfFileWriter()
        pageobj = file_reader.getPage(page)
        file_write.addPage(pageobj)
        output = str(self.new) + "\\" + str(int(page+1)) + ".pdf"
        with open(output,"wb") as output_pdf:
          file_write.write(output_pdf)
      file_1.close()
    else:
      print("文件不存在!")
      time.sleep(3)
      exit()

  #删除缓存文件夹中的不要的页
  def pdfremove(self,number):
    for pag in number:
      filename = str(self.new) + "\\" + str(pag) + ".pdf"
      if os.path.isfile(filename):
        os.unlink(filename)
      else:
        print("请确认要删除的页码%s是否正确!!"%pag)

  #将缓存文件夹中的剩余文件合进行合并
  def pdfmerge(self):
    file_list = [int(os.path.splitext(x)[0]) for x in os.listdir(self.new)] #读取新建文件夹下的所有文件并提取文件名转为数字
    file_write = PyPDF2.PdfFileWriter() #先创建一个新的pdf对象
    for page in sorted(file_list):
      pathstr = str(self.new) + "\\" + str(page) + ".pdf"
      file_1 = open(pathstr,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) # 使用strict关闭错误提示
      pageobj = file_reader.getPage(0)
      file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output, "wb") as output_pdf:
        file_write.write(output_pdf)
        print("第%s页完成"%page)
      file_1.close()

  def rmdir(self):
    if os.path.isdir(self.new):
      shutil.rmtree(self.new)

if __name__ == "__main__":
  #通过第一个参数获取待处理的文件,第二个参数到以后为删除的页码
  path = sys.argv[1]
  number = sys.argv[2:]
  mypdf = mypdf(path,number)
  def f(path,number):
    mypdf(path,number)
  threading.Thread(target=f,args=[path,number])

方法二:在写入新文件时使用if判断进行筛选出不要的页面

想法一、将读取与写入同时处理。使用if判断筛选不要的页面

def pdfsplt(self,path,number):
    print(number,type(number))
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
      file_write = PyPDF2.PdfFileWriter()
      #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
      for page in range(0,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
          output = str(self.new) + "_new.pdf"
          with open(output,"wb") as output_pdf: 
            file_write.write(output_pdf)
      file_1.close()
    else:
      print("文件不存在!")
      time.sleep(3)
      exit()

想法二、将数据先全部放入内存,最后在写入,来提高速度:

def pdfsplt(self,path,number):
    print(number,type(number))
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
      file_write = PyPDF2.PdfFileWriter()
      #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
      for page in range(0,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output,"wb") as output_pdf: #将内容全部放入内存,最后写入,提高处理速度
        file_write.write(output_pdf)
      file_1.close()
    else:
      print("文件不存在!")
      time.sleep(3)
      exit()

方法二的完整代码:

import PyPDF2
import os,time,shutil,sys
import threading

class mypdf(object):
  def __init__(self,path,number):
    self.new = os.path.splitext(path)[0] #获取文件的路径
    self.pdfsplt(path,number)
    pass

#循环每一页读入内存,最后写入文件
  def pdfsplt(self,path,number):
    print(number,type(number))
    if os.path.isfile(path):
      file_1 = open(path,"rb")
      file_reader = PyPDF2.PdfFileReader(file_1, strict=False) #使用strict关闭错误提示
      file_write = PyPDF2.PdfFileWriter()
      #使用for循环读取每一页并将其写入新pdf文件,文件以页码命名
      for page in range(0,file_reader.getNumPages()):
        if page not in number:
          pageobj = file_reader.getPage(page)
          file_write.addPage(pageobj)
      output = str(self.new) + "_new.pdf"
      with open(output,"wb") as output_pdf: #将内容全部放入内存,最后写入,提高处理速度
        file_write.write(output_pdf)
      file_1.close()
    else:
      print("文件不存在!")
      time.sleep(3)
      exit()

if __name__ == "__main__":
  #通过第一个参数获取待处理的文件,第二个参数到以后为删除的页码
  path = sys.argv[1]
  number = sys.argv[2:]
  number = list(map(int, number))
  mypdf = mypdf(path,number)
  def f(path,number):
    mypdf(path,number)
  threading.Thread(target=f,args=[path,number])

两种方法的比较:

  方法一 方法二中的第一种想法 方法二中的第二种想法
运行速度 较慢
代码量 65行 34行 34行

缺点:

    方法一在处理扫描的pdf文件时,运行速度太慢,不能实现范围性的删除。

    方法二不能实现范围性的删除

以上这篇PyPDF2读取PDF文件内容保存到本地TXT实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现读取并显示图片的两种方法
Jan 13 Python
django实现登录时候输入密码错误5次锁定用户十分钟
Nov 05 Python
Python输入二维数组方法
Apr 13 Python
解决安装tensorflow遇到无法卸载numpy 1.8.0rc1的问题
Jun 13 Python
浅谈python下tiff图像的读取和保存方法
Dec 04 Python
对Python 获取类的成员变量及临时变量的方法详解
Jan 22 Python
Python搭建代理IP池实现检测IP的方法
Oct 27 Python
python实现大量图片重命名
Mar 23 Python
python3的UnicodeDecodeError解决方法
Dec 20 Python
对python中 math模块下 atan 和 atan2的区别详解
Jan 17 Python
用Python进行栅格数据的分区统计和批量提取
May 27 Python
Python中Schedule模块使用详解 周期任务神器
Apr 19 Python
Python3.7下安装pyqt5的方法步骤(图文)
May 12 #Python
小 200 行 Python 代码制作一个换脸程序
May 12 #Python
python3用PyPDF2解析pdf文件,用正则匹配数据方式
May 12 #Python
Python如何根据时间序列数据作图
May 12 #Python
python logging.info在终端没输出的解决
May 12 #Python
你应该知道的Python3.6、3.7、3.8新特性小结
May 12 #Python
python将logging模块封装成单独模块并实现动态切换Level方式
May 12 #Python
You might like
php 中英文语言转换类
2011/09/07 PHP
PHP代码实现表单数据验证类
2015/07/28 PHP
php实现爬取和分析知乎用户数据
2016/01/26 PHP
javascript下操作css的float属性的特殊写法
2007/08/22 Javascript
JavaScript setTimeout和setInterval的使用方法 说明
2010/03/25 Javascript
js 控制页面跳转的5种方法
2013/09/09 Javascript
jquery获取div距离窗口和父级dv的距离示例
2013/10/10 Javascript
js 判断上传文件大小及格式代码
2013/11/13 Javascript
初始Nodejs
2014/11/08 NodeJs
详解angular 中的自定义指令之详解API
2017/06/20 Javascript
分析javascript中9 个常见错误阻碍你进步
2017/09/18 Javascript
解决Angular2 router.navigate刷新页面的问题
2018/08/31 Javascript
小程序实现人脸识别功能(百度ai)
2018/12/23 Javascript
vue中typescript装饰器的使用方法超实用教程
2019/06/17 Javascript
微信小程序加载机制及运行机制图解
2019/11/27 Javascript
JS删除对象中某一属性案例详解
2020/09/08 Javascript
[40:04]Secret vs Infamous 2019国际邀请赛淘汰赛 败者组 BO3 第二场 8.23
2019/09/05 DOTA
Python中用format函数格式化字符串的用法
2015/04/08 Python
Python处理JSON时的值报错及编码报错的两则解决实录
2016/06/26 Python
Flask框架的学习指南之开发环境搭建
2016/11/20 Python
Python基于Pymssql模块实现连接SQL Server数据库的方法详解
2017/07/20 Python
python+pandas生成指定日期和重采样的方法
2018/04/11 Python
python对html过滤处理的方法
2018/10/21 Python
python实现二维插值的三维显示
2018/12/17 Python
Python3.5以上版本lxml导入etree报错的解决方案
2019/06/26 Python
Django模板导入母版继承和自定义返回Html片段过程解析
2019/09/18 Python
python定时任务 sched模块用法实例
2019/11/04 Python
台湾7-ELEVEN线上购物中心:7-11
2021/01/21 全球购物
编程实现当输入某产品代码则打印出该产品记录的功能
2014/05/03 面试题
小学教研工作制度
2014/01/15 职场文书
企业军训感想
2014/02/07 职场文书
政府信息公开实施方案
2014/05/09 职场文书
十佳中学生事迹材料
2014/06/02 职场文书
一份教室追逐打闹的检讨书
2014/09/27 职场文书
80行代码写一个Webpack插件并发布到npm
2021/05/24 Javascript
JavaScript严格模式不支持八进制的问题讲解
2021/11/07 Javascript