Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
sqlalchemy对象转dict的示例
Apr 22 Python
Python内置函数Type()函数一个有趣的用法
Feb 18 Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 Python
celery4+django2定时任务的实现代码
Dec 23 Python
Appium Python自动化测试之环境搭建的步骤
Jan 23 Python
pycharm重命名文件的方法步骤
Jul 29 Python
Django rstful登陆认证并检查session是否过期代码实例
Aug 13 Python
Python3 集合set入门基础
Feb 10 Python
python 实现人和电脑猜拳的示例代码
Mar 02 Python
Python flask框架实现查询数据库并显示数据
Jun 04 Python
如何利用python之wxpy模块玩转微信
Aug 17 Python
python drf各类组件的用法和作用
Jan 12 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
《超神学院》霸气归来, 天使彦上演维多利亚的秘密
2020/03/02 国漫
通过具体程序来理解PHP里面的抽象类
2010/01/28 PHP
php5 apache 2.2 webservice 创建与配置(java)
2011/01/27 PHP
php文件上传你必须知道的几点
2015/10/20 PHP
PHP实现网页内容html标签补全和过滤的方法小结【2种方法】
2017/04/27 PHP
Laravel 前端资源配置教程
2019/10/18 PHP
Web层改进II-用xmlhttp 无声息提交复杂表单
2007/01/22 Javascript
js nextSibling属性和previousSibling属性概述及使用注意
2013/02/16 Javascript
js为数字添加逗号并格式化数字的代码
2013/08/23 Javascript
JavaScript fontcolor方法入门实例(按照指定的颜色来显示字符串)
2014/10/17 Javascript
jQuery模拟360浏览器切屏效果幻灯片(附demo源码下载)
2016/01/29 Javascript
浅谈jQuery 选择器和dom操作
2016/06/07 Javascript
JavaScript实现的CRC32函数示例
2016/11/23 Javascript
Angular1.x复杂指令实例详解
2017/03/01 Javascript
canvas基础绘制-绚丽倒计时的实例
2017/09/17 Javascript
详解Vue-axios 设置请求头问题
2018/12/06 Javascript
JQuery搜索框自动补全(模糊匹配)功能实现示例
2019/01/08 jQuery
JavaScript使用ul中li标签实现删除效果
2019/04/15 Javascript
JS中的算法与数据结构之栈(Stack)实例详解
2019/08/20 Javascript
python查找指定具有相同内容文件的方法
2015/06/28 Python
通过实例浅析Python对比C语言的编程思想差异
2015/08/30 Python
将TensorFlow的模型网络导出为单个文件的方法
2018/04/23 Python
python 使用sys.stdin和fileinput读入标准输入的方法
2018/10/17 Python
对Python模块导入时全局变量__all__的作用详解
2019/01/11 Python
django 消息框架 message使用详解
2019/07/22 Python
torch 中各种图像格式转换的实现方法
2019/12/26 Python
详解python polyscope库的安装和例程
2020/11/13 Python
细说CSS3中的选择符
2008/10/17 HTML / CSS
FitFlop澳大利亚官网:英国符合人体工学的鞋类品牌
2017/06/05 全球购物
澳大利亚小众服装品牌:Maurie & Eve
2018/03/27 全球购物
一份全面的PHP面试问题考卷
2012/07/15 面试题
如何在.net Winform里面显示PDF文档
2012/09/11 面试题
大学生关于奋斗的演讲稿
2014/01/09 职场文书
2015年专项整治工作总结
2015/04/03 职场文书
2015安全保卫工作总结
2015/04/25 职场文书
Django实现在线无水印抖音视频下载(附源码及地址)
2021/05/06 Python