编程 Python

Python批量提取PDF文件中文本的脚本

Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码，供大家参考，具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间，一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本，前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源：python小屋

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python批量提取PDF文件中文本的脚本

- Author -

董付国

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中精确输出JSON浮点数的方法

Apr 18 Python

python安装与使用redis的方法

Apr 19 Python

利用python批量检查网站的可用性

Sep 09 Python

Python从零开始创建区块链

Mar 06 Python

使用pandas对矢量化数据进行替换处理的方法

Apr 11 Python

VSCode Python开发环境配置的详细步骤

Feb 22 Python

使用python PIL库实现简单验证码的去噪方法步骤

May 10 Python

Django发送邮件和itsdangerous模块的配合使用解析

Aug 10 Python

tensorflow之获取tensor的shape作为max_pool的ksize实例

Jan 04 Python

Python 实现Image和Ndarray互相转换

Feb 19 Python

python怎么自定义捕获错误

Jun 29 Python

一文搞懂python异常处理、模块与包

Jun 26 Python

深入理解Django的中间件middleware

Mar 14 #Python

python批量设置多个Excel文件页眉页脚的脚本

Mar 14 #Python

浅谈python正则的常用方法覆盖范围70%以上

Mar 14 #Python

Python使用matplotlib绘制多个图形单独显示的方法示例

Mar 14 #Python

Python使用matplotlib绘制余弦的散点图示例

Mar 14 #Python

使用Python从零开始撸一个区块链

Mar 14 #Python

Python使用matplotlib绘图无法显示中文问题的解决方法

Mar 14 #Python

You might like

解决phpmyadmin中文乱码问题。。。

2007/01/18 PHP

php 设计模式之单例模式

2008/12/19 PHP

php 求质素（素数）的实现代码

2011/04/12 PHP

php判断文件夹是否存在不存在则创建

2015/04/09 PHP

实例讲解通过PHP创建数据库

2019/01/20 PHP

javascript 一些用法小结

2009/09/11 Javascript

javascript操作cookie的文章(设置，删除cookies)

2010/04/01 Javascript

网络之美 JavaScript中Get和Set访问器的实现代码

2010/09/19 Javascript

Extjs优化(二)Form表单提交通用实现

2013/04/15 Javascript

javascript中文本框中输入法切换的问题

2013/12/10 Javascript

JQuery右键菜单插件ContextMenu使用指南

2014/12/19 Javascript

jQuery多级联动下拉插件chained用法示例

2016/08/20 Javascript

简单的JS控制button颜色随点击更改的实现方法

2017/04/17 Javascript

javascript实现延时显示提示框效果

2017/06/01 Javascript

js学习总结_基于数据类型检测的四种方式(必看)

2017/07/04 Javascript

结合mint-ui移动端下拉加载实践方法总结

2017/11/08 Javascript

vue引入ueditor及node后台配置详解

2018/01/03 Javascript

JS实现全屏预览F11功能的示例代码

2018/07/23 Javascript

解决layui checkbox 提交多个值的问题

2019/09/02 Javascript

Node 代理访问的实现

2019/09/19 Javascript

在vue中实现禁止屏幕滚动,禁止屏幕滑动

2020/07/22 Javascript

学习python (1)

2006/10/31 Python

一个月入门Python爬虫学习,轻松爬取大规模数据

2018/01/03 Python

50行Python代码实现人脸检测功能

2018/01/23 Python

python3使用GUI统计代码量

2019/09/18 Python

5分钟快速掌握Python定时任务框架的实现

2021/01/26 Python

如何用 Python 制作 GitHub 消息助手

2021/02/20 Python

CSS3实现的文本3D效果附图

2014/09/03 HTML / CSS

2分钟教你实现环形/扇形菜单(基础版)

2020/01/15 HTML / CSS

在网上学习全世界最好的课程：Coursera

2017/11/07 全球购物

C#实现对任一张表的数据进行增，删，改，查要求，运用Webservice，体现出三层架构

2014/07/11 面试题

大四学年自我鉴定

2013/11/13 职场文书

幼儿园亲子活动总结

2014/04/26 职场文书

学期个人工作总结

2015/02/13 职场文书

校运会新闻稿

2015/07/17 职场文书

开学随笔

2015/08/15 职场文书