Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python快速搭建HTTP服务和文件共享服务的实例讲解
Jun 04 Python
Python3爬虫学习入门教程
Dec 11 Python
两个元祖T1=('a', 'b'),T2=('c', 'd')使用匿名函数将其转变成[{'a': 'c'},{'b': 'd'}]的几种方法
Mar 05 Python
python买卖股票的最佳时机(基于贪心/蛮力算法)
Jul 05 Python
浅谈tensorflow中Dataset图片的批量读取及维度的操作详解
Jan 20 Python
Python抓新型冠状病毒肺炎疫情数据并绘制全国疫情分布的代码实例
Feb 05 Python
基于TensorBoard中graph模块图结构分析
Feb 15 Python
python3+selenium获取页面加载的所有静态资源文件链接操作
May 04 Python
Pycharm安装并配置jupyter notebook的实现
May 18 Python
Python如何安装第三方模块
May 28 Python
python批量创建变量并赋值操作
Jun 03 Python
python自动获取微信公众号最新文章的实现代码
Jul 15 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
php 计算两个时间戳相隔的时间的函数(小时)
2009/12/18 PHP
实例讲解php数据访问
2016/05/09 PHP
详解PHP字符串替换str_replace()函数四种用法
2017/10/13 PHP
IE不出现Flash激活框的小发现的js实现方法
2007/09/07 Javascript
JS注册/移除事件处理程序(ExtJS应用程序设计实战)
2013/05/07 Javascript
jQuery使用zTree插件实现树形菜单和异步加载
2016/02/25 Javascript
前端jquery部分很精彩
2016/05/03 Javascript
原生js三级联动的简单实现代码
2016/06/07 Javascript
全面解析标签页的切换方式
2016/08/21 Javascript
jQuery leonaScroll 1.1 自定义滚动条插件(推荐)
2016/09/17 Javascript
Node Puppeteer图像识别实现百度指数爬虫的示例
2018/02/22 Javascript
Echarts之悬浮框中的数据排序问题
2018/11/08 Javascript
element-ui 中使用upload多文件上传只请求一次接口
2019/07/19 Javascript
javascript实现留言板功能
2020/02/08 Javascript
vuecli项目构建SSR服务端渲染的实现
2020/10/30 Javascript
js仿淘宝放大镜效果
2020/12/28 Javascript
布同自制Python函数帮助查询小工具
2011/03/13 Python
基于python中的TCP及UDP(详解)
2017/11/06 Python
python实现决策树分类算法
2017/12/21 Python
VSCode下好用的Python插件及配置
2018/04/06 Python
python中for用来遍历range函数的方法
2018/06/08 Python
详解python异步编程之asyncio(百万并发)
2018/07/07 Python
Tensorflow加载预训练模型和保存模型的实例
2018/07/27 Python
Django+Xadmin构建项目的方法步骤
2019/03/06 Python
python能做哪些生活有趣的事情
2020/09/09 Python
如何向接受结构参数的函数传入常数值
2016/02/17 面试题
精彩的演讲稿开头
2014/05/08 职场文书
九一八事变纪念日演讲稿
2014/09/14 职场文书
反四风个人对照检查材料
2014/09/26 职场文书
四风对照检查剖析材料
2014/10/07 职场文书
收款委托书
2014/10/14 职场文书
中学生学习保证书
2015/02/26 职场文书
个人承诺书格式范文
2015/04/29 职场文书
人生一定要学会的三样东西:放下、忘记、珍惜
2019/08/21 职场文书
巧用 -webkit-box-reflect 倒影实现各类动效(小结)
2021/04/22 HTML / CSS
python获取字符串中的email
2022/03/31 Python