Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中精确输出JSON浮点数的方法
Apr 18 Python
python安装与使用redis的方法
Apr 19 Python
利用python批量检查网站的可用性
Sep 09 Python
Python从零开始创建区块链
Mar 06 Python
使用pandas对矢量化数据进行替换处理的方法
Apr 11 Python
VSCode Python开发环境配置的详细步骤
Feb 22 Python
使用python PIL库实现简单验证码的去噪方法步骤
May 10 Python
Django发送邮件和itsdangerous模块的配合使用解析
Aug 10 Python
tensorflow之获取tensor的shape作为max_pool的ksize实例
Jan 04 Python
Python 实现Image和Ndarray互相转换
Feb 19 Python
python怎么自定义捕获错误
Jun 29 Python
一文搞懂python异常处理、模块与包
Jun 26 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
解决phpmyadmin中文乱码问题。。。
2007/01/18 PHP
php 设计模式之 单例模式
2008/12/19 PHP
php 求质素(素数) 的实现代码
2011/04/12 PHP
php判断文件夹是否存在不存在则创建
2015/04/09 PHP
实例讲解通过​PHP创建数据库
2019/01/20 PHP
javascript 一些用法小结
2009/09/11 Javascript
javascript操作cookie的文章(设置,删除cookies)
2010/04/01 Javascript
网络之美 JavaScript中Get和Set访问器的实现代码
2010/09/19 Javascript
Extjs优化(二)Form表单提交通用实现
2013/04/15 Javascript
javascript中文本框中输入法切换的问题
2013/12/10 Javascript
JQuery右键菜单插件ContextMenu使用指南
2014/12/19 Javascript
jQuery多级联动下拉插件chained用法示例
2016/08/20 Javascript
简单的JS控制button颜色随点击更改的实现方法
2017/04/17 Javascript
javascript实现延时显示提示框效果
2017/06/01 Javascript
js学习总结_基于数据类型检测的四种方式(必看)
2017/07/04 Javascript
结合mint-ui移动端下拉加载实践方法总结
2017/11/08 Javascript
vue引入ueditor及node后台配置详解
2018/01/03 Javascript
JS实现全屏预览F11功能的示例代码
2018/07/23 Javascript
解决layui checkbox 提交多个值的问题
2019/09/02 Javascript
Node 代理访问的实现
2019/09/19 Javascript
在vue中实现禁止屏幕滚动,禁止屏幕滑动
2020/07/22 Javascript
学习python (1)
2006/10/31 Python
一个月入门Python爬虫学习,轻松爬取大规模数据
2018/01/03 Python
50行Python代码实现人脸检测功能
2018/01/23 Python
python3使用GUI统计代码量
2019/09/18 Python
5分钟快速掌握Python定时任务框架的实现
2021/01/26 Python
如何用 Python 制作 GitHub 消息助手
2021/02/20 Python
CSS3实现的文本3D效果附图
2014/09/03 HTML / CSS
2分钟教你实现环形/扇形菜单(基础版)
2020/01/15 HTML / CSS
在网上学习全世界最好的课程:Coursera
2017/11/07 全球购物
C#实现对任一张表的数据进行增,删,改,查要求,运用Webservice,体现出三层架构
2014/07/11 面试题
大四学年自我鉴定
2013/11/13 职场文书
幼儿园亲子活动总结
2014/04/26 职场文书
学期个人工作总结
2015/02/13 职场文书
校运会新闻稿
2015/07/17 职场文书
开学随笔
2015/08/15 职场文书