Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
利用打码兔和超人打码自封装的打码类分享
Mar 16 Python
Python中json格式数据的编码与解码方法详解
Jul 01 Python
Python爬虫番外篇之Cookie和Session详解
Dec 27 Python
Python用 KNN 进行验证码识别的实现方法
Feb 06 Python
python smtplib模块自动收发邮件功能(二)
May 22 Python
python实现最长公共子序列
May 22 Python
python实现远程控制电脑
May 23 Python
Python socket实现的文件下载器功能示例
Nov 15 Python
Python中BeautifuSoup库的用法使用详解
Nov 15 Python
Python叠加矩形框图层2种方法及效果
Jun 18 Python
python实现学生信息管理系统源码
Feb 22 Python
浅析Python OpenCV三种滤镜效果
Apr 11 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
php实现36进制与10进制转换功能示例
2017/01/10 PHP
解决PHP 7编译安装错误:cannot stat ‘phar.phar’: No such file or directory
2017/02/25 PHP
使用YII2框架实现微信公众号中表单提交功能
2017/09/04 PHP
php制作圆形用户头像的实例_自定义封装类源代码
2017/09/18 PHP
javascript innerHTML、outerHTML、innerText、outerText的区别
2008/11/24 Javascript
Jquery知识点一 Jquery的ready和Dom的onload的区别
2011/01/15 Javascript
jquery用offset()方法获得元素的xy坐标
2014/09/06 Javascript
node.js实现爬虫教程
2020/08/25 Javascript
JavaScript必知必会(七)js对象继承
2016/06/08 Javascript
浅谈jQuery效果函数
2016/09/16 Javascript
Angular2 (RC5) 路由与导航详解
2016/09/21 Javascript
浅谈jQuery双事件多重加载的问题
2016/10/05 Javascript
jQuery实现radio第一次点击选中第二次点击取消功能
2017/05/15 jQuery
es6 字符串String的扩展(实例讲解)
2017/08/03 Javascript
JS实现的数组去除重复数据算法小结
2017/11/17 Javascript
nodejs中方法和模块用法示例
2018/12/24 NodeJs
基于js实现复制内容到操作系统粘贴板过程解析
2019/10/11 Javascript
Python实现全局变量的两个解决方法
2014/07/03 Python
python实现上传样本到virustotal并查询扫描信息的方法
2014/10/05 Python
详解使用pymysql在python中对mysql的增删改查操作(综合)
2017/01/18 Python
python中urllib.unquote乱码的原因与解决方法
2017/04/24 Python
基于TensorBoard中graph模块图结构分析
2020/02/15 Python
如何用Python提取10000份log中的产品信息
2021/01/14 Python
西班牙自行车和跑步商店:Alltricks
2018/07/07 全球购物
电子狗项圈:eDog Australia
2019/12/04 全球购物
乌克兰珠宝大卖场:Zlato.ua
2020/09/27 全球购物
.net开发工程师面试题
2014/02/25 面试题
小学后勤管理制度
2014/01/14 职场文书
秋季运动会通讯稿
2014/01/24 职场文书
焦裕禄精神心得体会
2014/09/02 职场文书
六一文艺汇演开幕词
2015/01/29 职场文书
认真学习保证书
2015/02/26 职场文书
城管年度个人总结
2015/02/28 职场文书
2015年度个人思想工作总结
2015/04/08 职场文书
生产现场禁烟通知
2015/04/23 职场文书
用JS创建一个录屏功能
2021/11/11 Javascript