python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现抓取网页并且解析的实例
Sep 20 Python
Python设计足球联赛赛程表程序的思路与简单实现示例
Jun 28 Python
Python连接phoenix的方法示例
Sep 29 Python
Python使用pickle模块实现序列化功能示例
Jul 13 Python
详谈Python 窗体(tkinter)表格数据(Treeview)
Oct 11 Python
删除DataFrame中值全为NaN或者包含有NaN的列或行方法
Nov 06 Python
在Pycharm中对代码进行注释和缩进的方法详解
Jan 20 Python
在python plt图表中文字大小调节的方法
Jul 08 Python
python tkinter 设置窗口大小不可缩放实例
Mar 04 Python
python 删除excel表格重复行,数据预处理操作
Jul 06 Python
如何通过python检查文件是否被占用
Dec 18 Python
安装不同版本的tensorflow与models方法实现
Feb 20 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
终于听上了直流胆调频
2021/03/02 无线电
强烈推荐:php.ini中文版(2)
2006/10/09 PHP
PHP 危险函数全解析
2009/09/09 PHP
php实现在站点里面添加邮件发送的功能
2020/04/28 PHP
php封装的单文件(图片)上传类完整实例
2016/10/18 PHP
Thinkphp3.2简单解决多文件上传只上传一张的问题
2017/09/26 PHP
Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解
2020/10/20 PHP
Javascript var变量隐式声明方法
2009/10/19 Javascript
Js获取数组最大和最小值示例代码
2013/10/29 Javascript
js实现从数组里随机获取元素
2015/01/12 Javascript
jQuery右侧选项卡焦点图片轮播特效代码分享
2015/09/05 Javascript
js去字符串前后空格的实现方法
2016/02/26 Javascript
BootStrap 下拉菜单点击之后不会出现下拉菜单(下拉菜单不弹出)的解决方案
2016/12/14 Javascript
Vue的移动端多图上传插件vue-easy-uploader的示例代码
2017/11/27 Javascript
在vue项目中引入高德地图及其UI组件的方法
2018/09/04 Javascript
微信小程序如何调用新闻接口实现列表循环
2019/07/02 Javascript
基于layui实现高级搜索(筛选)功能
2019/07/26 Javascript
JS常见内存泄漏及解决方案解析
2020/05/30 Javascript
JS跨浏览器解析XML应用过程详解
2020/10/16 Javascript
vue实现一个矩形标记区域(rectangle marker)的方法
2020/10/28 Javascript
[01:06]DOTA2小知识课堂 Ep.02 吹风竟可解梦境缠绕
2019/12/05 DOTA
浅谈pyhton学习中出现的各种问题(新手必看)
2017/05/17 Python
Python读取数据集并消除数据中的空行方法
2018/07/12 Python
python判断数字是否是超级素数幂
2018/09/27 Python
好莱坞百老汇御用王牌美妆:Koh Gen Do 江原道
2018/04/03 全球购物
C语言基础笔试题
2013/04/27 面试题
高中运动会入场词
2014/02/14 职场文书
铣床操作工岗位职责
2014/06/13 职场文书
文明好少年事迹材料
2014/08/19 职场文书
暑期培训班策划方案
2014/08/26 职场文书
2014领导班子“四风问题”对照检查材料思想汇报(执法局)
2014/09/21 职场文书
少年雷锋观后感
2015/06/10 职场文书
Django debug为True时,css加载失败的解决方案
2021/04/24 Python
关于CentOS 8 搭建MongoDB4.4分片集群的问题
2021/10/24 MongoDB
阿里云日志过滤器配置日志服务
2022/04/09 Servers
python数据分析之单因素分析线性拟合及地理编码
2022/06/25 Python