Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之使用Python查询更新数据库
Nov 25 Python
Python pickle模块用法实例分析
May 27 Python
Python的条件语句与运算符优先级详解
Oct 13 Python
Python中使用插入排序算法的简单分析与代码示例
May 04 Python
Python爬虫实现(伪)球迷速成
Jun 10 Python
python 分离文件名和路径以及分离文件名和后缀的方法
Oct 21 Python
解决django 新增加用户信息出现错误的问题
Jul 28 Python
python智联招聘爬虫并导入到excel代码实例
Sep 09 Python
Python检查图片是否损坏及图片类型是否正确过程详解
Sep 30 Python
浅谈python元素如何去重,去重后如何保持原来元素的顺序不变
Feb 28 Python
python datetime时间格式的相互转换问题
Jun 11 Python
python实现黄金分割法的示例代码
Apr 28 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
php下载excel无法打开的解决方法
2013/12/24 PHP
php之Smarty模板使用方法示例详解
2014/07/08 PHP
PHP中使用substr()截取字符串出现中文乱码问题该怎么办
2015/10/21 PHP
用javascript实现点击链接弹出"图片另存为"而不是直接打开
2007/08/15 Javascript
发布一个高效的JavaScript分析、压缩工具 JavaScript Analyser
2007/11/30 Javascript
JS模拟Dialog弹出浮动框效果代码
2015/10/16 Javascript
js实现短信发送倒计时功能(正则验证)
2017/02/10 Javascript
vuejs使用$emit和$on进行组件之间的传值的示例
2017/10/04 Javascript
vue自定义过滤器创建和使用方法详解
2017/11/06 Javascript
AngularJS 前台分页实现的示例代码
2018/06/07 Javascript
浅谈javascript中的prototype和__proto__的理解
2019/04/07 Javascript
file-loader打包图片文件时路径错误输出为[object-module]的解决方法
2020/01/03 Javascript
[03:21]辉夜杯主赛事 12月25日TOP5
2015/12/26 DOTA
[01:36]DOTA2完美大师赛趣味视频之与队友相处的十万个技巧
2017/11/19 DOTA
浅谈pandas中shift和diff函数关系
2018/04/08 Python
python如何实现一个刷网页小程序
2018/11/27 Python
python 实现倒排索引的方法
2018/12/25 Python
Pycharm使用之设置代码字体大小和颜色主题的教程
2019/07/12 Python
pandas的to_datetime时间转换使用及学习心得
2019/08/11 Python
matlab中imadjust函数的作用及应用举例
2020/02/27 Python
详解selenium + chromedriver 被反爬的解决方法
2020/10/28 Python
python opencv图像处理(素描、怀旧、光照、流年、滤镜 原理及实现)
2020/12/10 Python
CSS3实现红包抖动效果
2020/12/23 HTML / CSS
英国的一家创新礼品和小工具零售商:Menkind
2019/08/24 全球购物
意大利奢侈品牌在线精品店:Jole.it
2020/11/23 全球购物
C++面试题目
2013/06/25 面试题
2014领导班子四风问题查摆思想汇报
2014/09/13 职场文书
机关作风建设自查报告
2014/10/22 职场文书
秋菊打官司观后感
2015/06/03 职场文书
贷款收入证明格式
2015/06/24 职场文书
2016年优秀少先队辅导员事迹材料
2016/02/26 职场文书
立秋之描写立秋的作文(五年级)
2019/08/08 职场文书
python状态机transitions库详解
2021/06/02 Python
详解python网络进程
2021/06/15 Python
教你部署vue项目到docker
2022/04/05 Vue.js
Python OpenCV之常用滤波器使用详解
2022/04/07 Python