Python 实现加密过的PDF文件转WORD格式


Posted in Python onFebruary 04, 2020

实现方法简介

许多文件都支持转换为PDF格式,诸如Word,Excel,PowerPoint,Cad以及图片格式。所以pdf从学校到职场,都可以看到pdf文件的身影。

为了保证了文件的安全性,正常情况下无法对pdf的内容进行编辑。但是相应的我们就无法修改pdf的内容,也不便于pdf资料的使用。虽然现在市面上有很多 pdf 转 word 软件,比如 wps,但大多数的软件是要收费的,并且价格不菲。前些天就有人叫我帮她把 pdf 文档转成 word 的文档。因为写尽调报告需要去查看各种信评资料,往往这些资料都是pdf格式的文件,而且经常出现加密文档,为了方便查找和复制相关资料,将加密过的pdf文件转换成word文档就会便捷不少,提高使用效率。

于是想到写个程序,把 pdf 转成 word 文档。秉承着不要重复造轮子的想法,我首先在网上搜索了下相关代码。大多是针对未加密过的pdf文件来实现,本文结合加密文档的特殊性写了相关程序来实现这个功能。

支持加密文件的格式转换

代码效果

环境配置

1、pdfminer安装库命令:

pip install pdfminer3k

2、docx安装库命令:

pip install python_docx

注:pdf中非图片构成的部分才能被成功转换:

#-*- coding: UTF-8 -*- 
#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import os
#设置工作目录文件夹
os.chdir(r'c:/users/dicey/desktop/codes/pdf-docx')
#解析pdf文件函数
def parse(pdf_path):
 fp = open('diya.pdf', 'rb') # 以二进制读模式打开
 # 用文件对象来创建一个pdf文档分析器
 parser = PDFParser(fp)
 # 创建一个PDF文档
 doc = PDFDocument()
 # 连接分析器 与文档对象
 parser.set_document(doc)
 doc.set_parser(parser)
 # 提供初始化密码
 # 如果没有密码 就创建一个空的字符串
 doc.initialize()
 # 检测文档是否提供txt转换,不提供就忽略
 if not doc.is_extractable:
  raise PDFTextExtractionNotAllowed
 else:
  # 创建PDf 资源管理器 来管理共享资源
  rsrcmgr = PDFResourceManager()
  # 创建一个PDF设备对象
  laparams = LAParams()
  device = PDFPageAggregator(rsrcmgr, laparams=laparams)
  # 创建一个PDF解释器对象
  interpreter = PDFPageInterpreter(rsrcmgr, device)
  # 用来计数页面,图片,曲线,figure,水平文本框等对象的数量
  num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal = 0, 0, 0, 0, 0
  # 循环遍历列表,每次处理一个page的内容
  for page in doc.get_pages(): # doc.get_pages() 获取page列表
   num_page += 1 # 页面增一
   interpreter.process_page(page)
   # 接受该页面的LTPage对象
   layout = device.get_result()
   for x in layout:
    if isinstance(x,LTImage): # 图片对象
     num_image += 1
    if isinstance(x,LTCurve): # 曲线对象
     num_curve += 1
    if isinstance(x,LTFigure): # figure对象
     num_figure += 1
    if isinstance(x, LTTextBoxHorizontal): # 获取文本内容
     num_TextBoxHorizontal += 1 # 水平文本框对象增一
     # 保存文本内容
     with open(r'test2.doc', 'a',encoding='utf-8') as f: #生成doc文件的文件名及路径
      results = x.get_text()
      f.write(results)
      f.write('\n')
  print('对象数量:\n','页面数:%s\n'%num_page,'图片数:%s\n'%num_image,'曲线数:%s\n'%num_curve,'水平文本框:%s\n'
    %num_TextBoxHorizontal)

if __name__ == '__main__':
 pdf_path = r'diya.pdf' #pdf文件路径及文件名
 parse(pdf_path)

提供初始化密码

如果没有密码 就创建一个空的字符串

doc.initialize()

如果有密码 就写入相应的密码

未知加密方式的pdf文件

如果pdf文件的加密方式不知道,影响文件的复制和打印等可以先利用chrome浏览器来取消加密逻辑

实现方式很简单,只需要将加密的文件拖入到chrome浏览器再选择打印另存为就可以,破除加密后再使用程序转换文件格式

总结

以上所述是小编给大家介绍的Python 实现加密过的PDF文件转WORD格式,希望对大家有所帮助!

Python 相关文章推荐
Python中的闭包实例详解
Aug 29 Python
python返回昨天日期的方法
May 13 Python
Python import用法以及与from...import的区别
May 28 Python
python 写的一个爬虫程序源码
Feb 28 Python
python 换位密码算法的实例详解
Jul 19 Python
Python2实现的图片文本识别功能详解
Jul 11 Python
在Python中使用defaultdict初始化字典以及应用方法
Oct 31 Python
Flask之请求钩子的实现
Dec 23 Python
使用python的pexpect模块,实现远程免密登录的示例
Feb 14 Python
Spring http服务远程调用实现过程解析
Jun 11 Python
详解python对象之间的交互
Sep 29 Python
PyCharm 2020.2.2 x64 下载并安装的详细教程
Oct 15 Python
解决tensorflow打印tensor有省略号的问题
Feb 04 #Python
对Tensorflow中tensorboard日志的生成与显示详解
Feb 04 #Python
在 Python 中接管键盘中断信号的实现方法
Feb 04 #Python
在TensorFlow中屏蔽warning的方式
Feb 04 #Python
Python和Anaconda和Pycharm安装教程图文详解
Feb 04 #Python
Python3.7黑帽编程之病毒篇(基础篇)
Feb 04 #Python
python with (as)语句实例详解
Feb 04 #Python
You might like
修改Zend引擎实现PHP源码加密的原理及实践
2008/04/14 PHP
PHP连接SQLServer2005 的问题解决方法
2010/07/19 PHP
php知道与问问的采集插件代码
2010/10/12 PHP
探讨Hessian在PHP中的使用分析
2013/06/13 PHP
php实现多站点共用session实现单点登录的方法详解
2019/09/18 PHP
收藏一些不常用,但是有用的代码
2007/03/12 Javascript
基于jquery的页面划词搜索JS
2010/09/14 Javascript
jquery中使用循环下拉菜单示例代码
2014/09/24 Javascript
JS实现控制表格行文本对齐的方法
2015/03/30 Javascript
利用JavaScript的AngularJS库制作电子名片的方法
2015/06/18 Javascript
JavaScript 性能优化小结
2015/10/12 Javascript
js随机生成一个验证码
2017/06/01 Javascript
Angular 4 依赖注入学习教程之FactoryProvider的使用(四)
2017/06/04 Javascript
微信小程序版本自动更新的方法
2019/06/14 Javascript
JS删除String里某个字符的方法
2021/01/06 Javascript
Layui数据表格 前后端json数据接收的方法
2019/09/19 Javascript
[41:13]完美世界DOTA2联赛PWL S2 Forest vs Rebirth 第一场 11.20
2020/11/20 DOTA
python client使用http post 到server端的代码
2013/02/10 Python
python图像处理之镜像实现方法
2015/05/30 Python
python数据抓取分析的示例代码(python + mongodb)
2017/12/25 Python
Python log模块logging记录打印用法解析
2020/01/20 Python
一文读懂Python 枚举
2020/08/25 Python
使用bandit对目标python代码进行安全函数扫描的案例分析
2021/01/27 Python
日本一家专门经营各种箱包的大型网站:Traveler Store
2016/08/03 全球购物
学期自我鉴定范文
2013/10/01 职场文书
兼职业务员岗位职责
2014/01/01 职场文书
服装设计专业毕业生求职信
2014/04/09 职场文书
环保倡议书500字
2014/05/15 职场文书
广播体操口号
2014/06/18 职场文书
宣传活动总结范文
2014/07/01 职场文书
团党委领导干部党的群众路线教育实践活动个人对照检查材料思想汇
2014/10/05 职场文书
惹女朋友生气检讨书
2015/05/06 职场文书
教师反邪教心得体会
2016/01/15 职场文书
python编程学习使用管道Pipe编写优化代码
2021/11/20 Python
一行Python命令实现批量加水印
2022/04/07 Python
Golang map映射的用法
2022/04/22 Golang