编程 Python

Python解析并读取PDF文件内容的方法

Posted in Python onMay 08, 2018

本文实例讲述了Python解析并读取PDF文件内容的方法。分享给大家供大家参考，具体如下：

一、问题描述

利用python，去读取pdf文本内容。

二、效果

Python解析并读取PDF文件内容的方法

三、运行环境

python2.7

四、需要安装的库

pip install pdfminer

五、实现源代码

代码1（win64）

# coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import time
time1=time.time()
import os.path
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
result=[]
class CPdf2TxtManager():
  def __init__(self):
    '''''
    Constructor
    '''
  def changePdfToText(self, filePath):
    file = open(path, 'rb') # 以二进制读模式打开
    #用文件对象来创建一个pdf文档分析器
    praser = PDFParser(file)
    # 创建一个PDF文档
    doc = PDFDocument()
    # 连接分析器 与文档对象
    praser.set_document(doc)
    doc.set_parser(praser)
    # 提供初始化密码
    # 如果没有密码 就创建一个空的字符串
    doc.initialize()
    # 检测文档是否提供txt转换，不提供就忽略
    if not doc.is_extractable:
      raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    pdfStr = ''
    # 循环遍历列表，每次处理一个page的内容
    for page in doc.get_pages(): # doc.get_pages() 获取page列表
      interpreter.process_page(page)
      # 接受该页面的LTPage对象
      layout = device.get_result()
      for x in layout:
        if hasattr(x, "get_text"):
          # print x.get_text()
          result.append(x.get_text())
          fileNames = os.path.splitext(filePath)
          with open(fileNames[0] + '.txt','wb') as f:
            results = x.get_text()
            print(results)
            f.write(results + '\n')
if __name__ == '__main__':
  '''''
   解析pdf 文本，保存到txt文件中
  '''
  path = u'C:/data3.pdf'
  pdf2TxtManager = CPdf2TxtManager()
  pdf2TxtManager.changePdfToText(path)
  # print result[0]
  time2 = time.time()
  print u'ok,解析pdf结束!'
  print u'总共耗时：' + str(time2 - time1) + 's'

代码2（win32）

# coding=utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import time
time1=time.time()
import os.path
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
result=[]
class CPdf2TxtManager():
  def __init__(self):
    '''''
    Constructor
    '''
  def changePdfToText(self, filePath):
    file = open(path, 'rb') # 以二进制读模式打开
    #用文件对象来创建一个pdf文档分析器
    praser = PDFParser(file)
    # 创建一个PDF文档
    doc = PDFDocument(praser)
    # 检测文档是否提供txt转换，不提供就忽略
    if not doc.is_extractable:
      raise PDFTextExtractionNotAllowed
    # 创建PDf 资源管理器 来管理共享资源
    rsrcmgr = PDFResourceManager()
    # 创建一个PDF设备对象
    laparams = LAParams()
    device = PDFPageAggregator(rsrcmgr, laparams=laparams)
    # 创建一个PDF解释器对象
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    pdfStr = ''
    # 循环遍历列表，每次处理一个page的内容
    for page in PDFPage.create_pages(doc): # doc.get_pages() 获取page列表
      interpreter.process_page(page)
      # 接受该页面的LTPage对象
      layout = device.get_result()
      for x in layout:
        if hasattr(x, "get_text"):
          # print x.get_text()
          result.append(x.get_text())
          fileNames = os.path.splitext(filePath)
          with open(fileNames[0] + '.txt','wb') as f:
            results = x.get_text()
            print(results)
            f.write(results + '\n')
if __name__ == '__main__':
  '''''
   解析pdf 文本，保存到txt文件中
  '''
  path = u'C:/36.pdf'
  pdf2TxtManager = CPdf2TxtManager()
  pdf2TxtManager.changePdfToText(path)
  # print result[0]
  time2 = time.time()
  print u'ok,解析pdf结束!'
  print u'总共耗时：' + str(time2 - time1) + 's'

更多Python相关内容感兴趣的读者可查看本站专题：《Python文件与目录操作技巧汇总》、《Python编码操作技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

Python解析并读取PDF文件内容的方法

- Author -

开心果汁

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python中使用glob和rmtree删除目录子目录及所有文件的例子

Nov 21 Python

Python3里的super()和__class__使用介绍

Apr 23 Python

Python切片知识解析

Mar 06 Python

cmd运行python文件时对结果进行保存的方法

May 16 Python

Django项目中model的数据处理以及页面交互方法

May 30 Python

用Python将结果保存为xlsx的方法

Jan 28 Python

Python常见数字运算操作实例小结

Mar 22 Python

Python urlopen()和urlretrieve()用法解析

Jan 07 Python

Python语法之精妙的十个知识点(装B语法)

Jan 18 Python

解决Tensorflow占用GPU显存问题

Feb 03 Python

Python如何给函数库增加日志功能

Aug 04 Python

Python if else条件语句形式详解

Mar 24 Python

python-docx修改已存在的Word文档的表格的字体格式方法

May 08 #Python

对Python中gensim库word2vec的使用详解

May 08 #Python

用python处理MS Word的实例讲解

May 08 #Python

基于python批量处理dat文件及科学计算方法详解

May 08 #Python

使用Python通过win32 COM实现Word文档的写入与保存方法

May 08 #Python

Ubuntu下使用python读取doc和docx文档的内容方法

May 08 #Python

儿童编程python入门

May 08 #Python

You might like

一个用于MySQL的PHP XML类

2006/10/09 PHP

基于JQuery+PHP编写砸金蛋中奖程序

2015/09/08 PHP

PHP传值到不同页面的三种常见方式及php和html之间传值问题

2015/11/19 PHP

很酷的javascript loading效果代码

2008/06/18 Javascript

js CSS操作方法集合

2008/10/31 Javascript

判断客户端浏览器是否安装了Flash插件的多种方法

2010/08/11 Javascript

JS随即打乱数组实现代码

2012/12/03 Javascript

javascript实现数组中的内容随机输出

2015/08/11 Javascript

javascript实现在下拉列表中显示多级树形菜单的方法

2015/08/12 Javascript

JavaScript代码实现禁止右键、禁选择、禁粘贴、禁shift、禁ctrl、禁alt

2015/11/17 Javascript

javascript动态添加checkbox复选框的方法

2015/12/23 Javascript

jquery select2的使用心得(推荐)

2016/12/04 Javascript

Javascript操作dom对象之select全面解析

2017/04/24 Javascript

Express框架之connect-flash详解

2017/05/31 Javascript

javascript高级模块化require.js的具体使用方法

2017/10/31 Javascript

详解webpack之scss和postcss-loader的配置

2018/01/09 Javascript

mpvue小程序仿qq左滑置顶删除组件

2018/08/03 Javascript

pm2启动ssr失败的解决方法

2019/06/29 Javascript

[46:47]完美世界DOTA2联赛PWL S2 FTD vs Magma 第二场 11.20

2020/11/23 DOTA

Python自动化运维和部署项目工具Fabric使用实例

2016/09/18 Python

urllib和BeautifulSoup爬取维基百科的词条简单实例

2018/01/17 Python

python使用wxpy轻松实现微信防撤回的方法

2019/02/21 Python

python使用递归的方式建立二叉树

2019/07/03 Python

django 捕获异常和日志系统过程详解

2019/07/18 Python

在Python中利用pickle保存变量的实例

2019/12/30 Python

Python 将json序列化后的字符串转换成字典(推荐)

2020/01/06 Python

大学生实习证明范本

2014/01/15 职场文书

家长给小学生的评语

2014/01/30 职场文书

运动会获奖感言

2014/02/11 职场文书

元旦晚会感言

2014/03/12 职场文书

项目采购员岗位职责

2014/04/15 职场文书

妇联领导班子剖析材料

2014/08/21 职场文书

幼儿园食品安全责任书

2015/05/08 职场文书

哈姆雷特读书笔记

2015/06/29 职场文书

导游词之铁岭象牙山

2019/12/06 职场文书

Vue3.0中Ref与Reactive的区别示例详析

2021/07/07 Vue.js