编程 Python

用python写PDF转换器的实现

Posted in Python onOctober 29, 2020

前言

某个夜深人静的夜晚，夜微凉风微扬，月光照进我的书房~
当我打开文件夹以回顾往事之余，惊现许多看似杂乱的无聊代码。我拍腿正坐，一个想法油然而生：“生活已然很无聊，不如再无聊些叭”。
于是，我决定开一个专题，便称之为kimol君的无聊小发明。
妙…啊~~~

想必小伙伴都经历过，当你想要把PDF转为WORD时，自己打字赫赫甩在你眼前：

用python写PDF转换器的实现

不充钱就想白嫖？？想得美~
然而，kimol君是不会退缩的，毕竟迎难而上是传统美德。于是，今天的主题出来了：用python写一个PDF转WORD的小工具（基于某网站接口）。

一、思路分析

网上一搜，你可以发现很多PDF转换的工具，其中不乏在线转换的网站，比如这样的：

用python写PDF转换器的实现

那么，通过网站提供的测试接口，我们便可以通过爬虫模拟的方式实现转换。
没有错了~思路就是如此的简单明了，今天的主角便是：https://app.xunjiepdf.com

通过抓包分析，知道这是一个POST请求，接下来用requests库模拟即可。
需要注意的是，这个接口仅用于测试，所以可供转换的页面等都有所限制，如需更完整的功能还请支持原版。

二、我的代码

正所谓一万个coders，就有一万种codes，以下为我的代码，仅供参考。
导入相关库：

import time
import requests

定义PDF2Word类：

class PDF2Word():
 def __init__(self):
  self.machineid = 'ccc052ee5200088b92342303c4ea9399'
  self.token = ''
  self.guid = ''
  self.keytag = ''
 
 def produceToken(self):
  url = 'https://app.xunjiepdf.com/api/producetoken'
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0',
    'Accept': 'application/json, text/javascript, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'X-Requested-With': 'XMLHttpRequest',
    'Origin': 'https://app.xunjiepdf.com',
    'Connection': 'keep-alive',
    'Referer': 'https://app.xunjiepdf.com/pdf2word/',}
  data = {'machineid':self.machineid}
  res = requests.post(url,headers=headers,data=data)
  res_json = res.json()
  if res_json['code'] == 10000:
   self.token = res_json['token']
   self.guid = res_json['guid']
   print('成功获取token')
   return True
  else:
   return False
 
 def uploadPDF(self,filepath):
  filename = filepath.split('/')[-1]
  files = {'file': open(filepath,'rb')}
  url = 'https://app.xunjiepdf.com/api/Upload'
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0',
    'Accept': '*/*',
    'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Content-Type': 'application/pdf',
    'Origin': 'https://app.xunjiepdf.com',
    'Connection': 'keep-alive',
    'Referer': 'https://app.xunjiepdf.com/pdf2word/',}
  params = (
    ('tasktype', 'pdf2word'),
    ('phonenumber', ''),
    ('loginkey', ''),
    ('machineid', self.machineid),
    ('token', self.token),
    ('limitsize', '2048'),
    ('pdfname', filename),
    ('queuekey', self.guid),
    ('uploadtime', ''),
    ('filecount', '1'),
    ('fileindex', '1'),
    ('pagerange', 'all'),
    ('picturequality', ''),
    ('outputfileextension', 'docx'),
    ('picturerotate', '0,undefined'),
    ('filesequence', '0,undefined'),
    ('filepwd', ''),
    ('iconsize', ''),
    ('picturetoonepdf', ''),
    ('isshare', '0'),
    ('softname', 'pdfonlineconverter'),
    ('softversion', 'V5.0'),
    ('validpagescount', '20'),
    ('limituse', '1'),
    ('filespwdlist', ''),
    ('fileCountwater', '1'),
    ('languagefrom', ''),
    ('languageto', ''),
    ('cadverchose', ''),
    ('pictureforecolor', ''),
    ('picturebackcolor', ''),
    ('id', 'WU_FILE_1'),
    ('name', filename),
    ('type', 'application/pdf'),
    ('lastModifiedDate', ''),
    ('size', ''),)
  res= requests.post(url,headers=headers,params=params,files=files)
  res_json = res.json()
  if res_json['message'] == '上传成功':
   self.keytag = res_json['keytag']
   print('成功上传PDF')
   return True
  else:
   return False
  
 def progress(self):
  url = 'https://app.xunjiepdf.com/api/Progress'
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:76.0) Gecko/20100101 Firefox/76.0',
    'Accept': 'text/plain, */*; q=0.01',
    'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
    'X-Requested-With': 'XMLHttpRequest',
    'Origin': 'https://app.xunjiepdf.com',
    'Connection': 'keep-alive',
    'Referer': 'https://app.xunjiepdf.com/pdf2word/',}
  data = {
    'tasktag': self.keytag,
    'phonenumber': '',
    'loginkey': '',
    'limituse': '1'}
  res= requests.post(url,headers=headers,data=data)
  res_json = res.json()
  if res_json['message'] == '处理成功':
   print('PDF处理完成')
   return True
  else:
   print('PDF处理中')
   return False
  
 def downloadWord(self,output):
  url = 'https://app.xunjiepdf.com/download/fileid/%s'%self.keytag
  res = requests.get(url)
  with open(output,'wb') as f:
   f.write(res.content)
   print('PDF下载成功("%s")'%output)
   
 def convertPDF(self,filepath,outpath):
  filename = filepath.split('/')[-1]
  filename = filename.split('.')[0]+'.docx'
  self.produceToken()
  self.uploadPDF(filepath)
  while True:
   res = self.progress()
   if res == True:
    break
   time.sleep(1)
  self.downloadWord(outpath+filename)

执行主函数：

if __name__=='__main__': 
 pdf2word = PDF2Word()
 pdf2word.convertPDF('001.pdf','')

注意：convertPDF函数有两个参数，第一个为需要转换的PDF，第二个参数为转换后的目录。
run一下，一键入魂，".docx"文件已经躺在了我的目录中，舒服了~

用python写PDF转换器的实现

写在最后

到此这篇关于用python写PDF转换器的实现的文章就介绍到这了,更多相关用python写PDF转换器内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

用python写PDF转换器的实现

- Author -

不正经的kimol君

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

详细介绍Python中的偏函数

Apr 27 Python

python 队列详解及实例代码

Oct 18 Python

Python实现XML文件解析的示例代码

Feb 05 Python

python删除文本中行数标签的方法

May 31 Python

PyTorch读取Cifar数据集并显示图片的实例讲解

Jul 27 Python

python如何求解两数的最大公约数

Sep 27 Python

python得到windows自启动列表的方法

Oct 14 Python

python实现Dijkstra静态寻路算法

Jan 17 Python

Python自动化之数据驱动让你的脚本简洁10倍【推荐】

Jun 04 Python

OpenCV 表盘指针自动读数的示例代码

Apr 10 Python

用python按照图像灰度值统计并筛选图片的操作(PIL,shutil,os)

Jun 04 Python

python如何获取网络数据

Apr 11 Python

python查询MySQL将数据写入Excel

Oct 29 #Python

Python 使用office365邮箱的示例

Oct 29 #Python

PyCharm2019.3永久激活破解详细图文教程，亲测可用（不定期更新）

Oct 29 #Python

Ubuntu 20.04安装Pycharm2020.2及锁定到任务栏的问题(小白级操作)

Oct 29 #Python

15个Pythonic的代码示例(值得收藏)

Oct 29 #Python

python 如何设置守护进程

Oct 29 #Python

python 多线程中join()的作用

Oct 29 #Python

You might like

曾在DC漫画界反派角色扮演的演员，谁才是你心目中的小丑之王？

2020/04/09 欧美动漫

php 友好URL的实现（吐血推荐）

2008/10/04 PHP

php 无法加载mysql的module的时候的配置的解决方案引发的思考

2012/01/27 PHP

Yii的CDbCriteria查询条件用法实例

2014/12/04 PHP

PHP实现检测客户端是否使用代理服务器及其匿名级别

2015/01/07 PHP

php 输入输出流详解及示例代码

2016/08/25 PHP

PHP大文件分块上传功能实例详解

2019/07/22 PHP

laravel 解决多库下的DB::transaction()事务失效问题

2019/10/21 PHP

javascript数组的扩展实现代码集合

2008/06/01 Javascript

IE浏览器PNG图片透明效果代码

2008/09/02 Javascript

javascript学习笔记(三) String 字符串类型介绍

2012/06/19 Javascript

js返回上一页并刷新代码整理

2012/12/21 Javascript

JS+CSS制作DIV层可(最小化/拖拽/排序)功能实现代码

2013/02/25 Javascript

js怎么覆盖原有方法实现重写

2014/09/04 Javascript

Knockoutjs 学习系列(一)ko初体验

2016/06/07 Javascript

原生JS实现轮播效果+学前端的感受(防止走火入魔)

2016/08/21 Javascript

微信小程序数据访问实例详解

2016/10/08 Javascript

Angular.js前台传list数组由后台spring MVC接收数组示例代码

2017/07/31 Javascript

canvas+gif.js打造自己的数字雨头像的示例代码

2017/10/26 Javascript

JS通过ajax + 多列布局 + 自动加载实现瀑布流效果

2019/05/30 Javascript

jQuery擦除插件eraser使用方法详解

2020/01/11 jQuery

[15:58]DOTA2国际邀请赛采访专栏：Tongfu.Sansheng&KingJ，DK.rOtk

2013/08/08 DOTA

python在多玩图片上下载妹子图的实现代码

2013/08/13 Python

利用Python开发微信支付的注意事项

2016/08/19 Python

TensorFlow实现简单卷积神经网络

2018/05/24 Python

基于python分析你的上网行为看看你平时上网都在干嘛

2019/08/13 Python

介绍一下linux文件系统分配策略

2012/11/17 面试题

结构工程个人自荐信范文

2013/11/30 职场文书

校园公益广告语

2014/03/13 职场文书

经典毕业生求职信

2014/07/12 职场文书

四风剖析查摆对照检查材料思想汇报

2014/09/24 职场文书

师德师风学习材料

2014/12/19 职场文书

财政局个人总结

2015/03/04 职场文书

详解PHP Swoole与TCP三次握手

2021/05/27 PHP

详解Redis基本命令与使用场景

2021/06/01 Redis

Nginx 常用配置

2022/05/15 Servers