Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用PythonMagick将jpg图片转换成ico图片的方法
Mar 26 Python
Python设计模式之抽象工厂模式
Aug 25 Python
python用模块zlib压缩与解压字符串和文件的方法
Dec 16 Python
Python 获取当前所在目录的方法详解
Aug 02 Python
python方向键控制上下左右代码
Jan 20 Python
Python中遍历列表的方法总结
Jun 27 Python
python实现图片九宫格分割
Mar 07 Python
python代码实现逻辑回归logistic原理
Aug 07 Python
Python之数据序列化(json、pickle、shelve)详解
Aug 30 Python
Python与C/C++的相互调用案例
Mar 04 Python
解决numpy和torch数据类型转化的问题
May 23 Python
对象析构函数__del__在Python中何时使用
Mar 22 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
thinkphp中空模板与空模块的用法实例
2014/11/26 PHP
Zend Framework框架路由机制代码分析
2016/03/22 PHP
php微信开发之关键词回复功能
2018/06/13 PHP
ThinkPHP5.1框架数据库链接和增删改查操作示例
2019/08/03 PHP
基于PHP的微信公众号的开发流程详解
2020/08/07 PHP
JS实现打开本地文件或文件夹
2021/03/09 Javascript
jQuery 连续列表实现代码
2009/12/21 Javascript
JavaScript 更严格的相等 [译]
2012/09/20 Javascript
javascript创建和存储cookie示例
2014/01/07 Javascript
js如何获取object类型里的键值
2014/02/18 Javascript
基于javascript实现的搜索时自动提示功能
2014/12/26 Javascript
jQuery编程中的一些核心方法简介
2015/08/14 Javascript
实现一个简单的vue无限加载指令方法
2017/01/10 Javascript
Javascript中数组去重与拍平的方法示例
2017/02/03 Javascript
原生JS实现前端本地文件上传
2018/09/08 Javascript
node.js连接mysql与基本用法示例
2019/01/05 Javascript
ES6的异步终极解决方案分享
2019/07/11 Javascript
python 查找文件夹下所有文件 实现代码
2009/07/01 Python
python3使用urllib示例取googletranslate(谷歌翻译)
2014/01/23 Python
使用paramiko远程执行命令、下发文件的实例
2017/10/01 Python
Python 3.x 安装opencv+opencv_contrib的操作方法
2018/04/02 Python
Django读取Mysql数据并显示在前端的实例
2018/05/27 Python
python 用正则表达式筛选文本信息的实例
2018/06/05 Python
Python之列表的插入&替换修改方法
2018/06/28 Python
pytorch索引查找 index_select的例子
2019/08/18 Python
最小二乘法及其python实现详解
2020/02/24 Python
python如何更新包
2020/06/11 Python
Python爬虫headers处理及网络超时问题解决方案
2020/06/19 Python
英语系毕业生自荐信
2013/10/31 职场文书
教师自我鉴定范文
2013/11/10 职场文书
安全资料员岗位职责
2013/12/14 职场文书
前台文员岗位职责
2013/12/28 职场文书
竞选生活委员演讲稿
2014/04/28 职场文书
管理建议书范文
2014/05/13 职场文书
安全第一课观后感
2015/06/18 职场文书
MybatisPlus EntityWrapper如何自定义SQL
2022/03/22 Java/Android