Python批量提取PDF文件中文本的脚本


Posted in Python onMarch 14, 2018

本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os
import sys
import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:
 pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
 os.rename(pdf1, pdf)
 print('='*30)
 print(pdf)
 
 txt = pdf[:-4] + '.txt'
 exe = '"' + sys.executable + '" "'
 pdf2txt = os.path.dirname(sys.executable)
 pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
 try:
 #调用命令行工具pdf2txt.py进行转换
 #如果pdf加密过可以改写下面的代码
 #在-o前面使用-P来指定密码
 cmd = exe + pdf2txt + txt + ' ' + pdf
 os.popen(cmd)
 #转换需要一定时间,一般小文件2秒钟足够了
 time.sleep(2)
 #输出转换后的文本,前200个字符
 with open(txt, encoding='utf8') as fp:
  print(fp.read(200))
 except:
 pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
在Python的Django框架上部署ORM库的教程
Apr 20 Python
Python双精度浮点数运算并分行显示操作示例
Jul 21 Python
详解Python中的Numpy、SciPy、MatPlotLib安装与配置
Nov 17 Python
Python WSGI的深入理解
Aug 01 Python
python生成lmdb格式的文件实例
Nov 08 Python
python用post访问restful服务接口的方法
Dec 07 Python
python:接口间数据传递与调用方法
Dec 17 Python
在django admin中添加自定义视图的例子
Jul 26 Python
python使用opencv在Windows下调用摄像头实现解析
Nov 26 Python
Django关于admin的使用技巧和知识点
Feb 10 Python
Python openpyxl 插入折线图实例
Apr 17 Python
python使用matplotlib绘制图片时x轴的刻度处理
Aug 30 Python
深入理解Django的中间件middleware
Mar 14 #Python
python批量设置多个Excel文件页眉页脚的脚本
Mar 14 #Python
浅谈python正则的常用方法 覆盖范围70%以上
Mar 14 #Python
Python使用matplotlib绘制多个图形单独显示的方法示例
Mar 14 #Python
Python使用matplotlib绘制余弦的散点图示例
Mar 14 #Python
使用Python从零开始撸一个区块链
Mar 14 #Python
Python使用matplotlib绘图无法显示中文问题的解决方法
Mar 14 #Python
You might like
php fputcsv命令 写csv文件遇到的小问题(多维数组连接符)
2011/05/24 PHP
PHP5.2下preg_replace函数的问题
2015/05/08 PHP
PHP调用存储过程返回值不一致问题的解决方法分析
2016/04/26 PHP
php 提交表单 关闭layer弹窗iframe的实例讲解
2018/08/20 PHP
EXT中xtype的含义分析
2010/01/07 Javascript
Eval and new funciton not the same thing
2012/12/27 Javascript
2014年50个程序员最适用的免费JQuery插件
2014/12/15 Javascript
jQuery实现鼠标滑过Div层背景变颜色的方法
2015/02/17 Javascript
JS中setTimeout的巧妙用法前端函数节流
2016/03/24 Javascript
JavaScript:Array类型全面解析
2016/05/19 Javascript
jQuery实现简单漂亮的Nav导航菜单效果
2017/03/29 jQuery
Vue表单验证插件Vue Validator使用方法详解
2017/04/07 Javascript
作为老司机使用 React 总结的 11 个经验教训
2017/04/08 Javascript
JS获取填报扩展单元格控件的值的解决办法
2017/07/14 Javascript
如何使用JavaScript实现栈与队列
2019/06/24 Javascript
VUE写一个简单的表格实例
2019/08/06 Javascript
mpvue实现小程序签到金币掉落动画(api实现)
2019/10/17 Javascript
简单文件操作python 修改文件指定行的方法
2013/05/15 Python
几种实用的pythonic语法实例代码
2018/02/24 Python
批量将ppt转换为pdf的Python代码 只要27行!
2018/02/26 Python
Python在groupby分组后提取指定位置记录方法
2018/04/20 Python
用python实现刷点击率的示例代码
2019/02/21 Python
GitHub 热门:Python 算法大全,Star 超过 2 万
2019/04/29 Python
Python+PyQT5的子线程更新UI界面的实例
2019/06/14 Python
pymysql 开启调试模式的实现
2019/09/24 Python
CSS3弹性盒模型开发笔记(三)
2016/04/26 HTML / CSS
Dr.Jart+美国官网:韩国药妆品牌
2019/01/18 全球购物
物流专业大学生的自我鉴定
2013/11/13 职场文书
工程专业求职自荐书范文
2014/02/08 职场文书
幼儿园师德师风学习材料
2014/05/29 职场文书
支行行长竞聘报告
2014/11/06 职场文书
2014年医药代表工作总结
2014/11/22 职场文书
师德师风学习材料
2014/12/19 职场文书
党员干部廉洁自律承诺书
2015/04/28 职场文书
2016领导干部廉洁自律心得体会
2016/01/13 职场文书
Vue2项目中对百度地图的封装使用详解
2022/06/16 Vue.js