python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python 性能提升的几种方法
Jul 15 Python
win7上python2.7连接mysql数据库的方法
Jan 14 Python
python:socket传输大文件示例
Jan 18 Python
浅谈Python中range和xrange的区别
Dec 20 Python
5分钟 Pipenv 上手指南
Dec 20 Python
浅谈PYTHON 关于文件的操作
Mar 19 Python
Django restful framework生成API文档过程详解
Nov 12 Python
Python urllib request模块发送请求实现过程解析
Dec 10 Python
Python实现FTP文件定时自动下载的步骤
Dec 19 Python
详解用Python把PDF转为Word方法总结
Apr 27 Python
python批量创建变量并赋值操作
Jun 03 Python
python not运算符的实例用法
Jun 30 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
在MongoDB中模拟Auto Increment的php代码
2011/03/06 PHP
PHP实现多图片上传类实例
2014/07/26 PHP
帝国CMS留言板回复后发送EMAIL通知客户
2015/07/06 PHP
10条php编程小技巧
2015/07/07 PHP
TP(thinkPHP)框架多层控制器和多级控制器的使用示例
2018/06/13 PHP
多浏览器支持的右下角浮动窗口
2010/04/01 Javascript
jQuery的链式调用浅析
2010/12/03 Javascript
基于jQuery的简单的列表导航菜单
2011/03/02 Javascript
封装了一个js图片轮换效果的函数
2011/09/28 Javascript
js querySelector和getElementById通过id获取元素的区别
2012/04/20 Javascript
计算新浪Weibo消息长度(还可以输入119字)
2013/07/02 Javascript
调用innerHTML之后onclick失效问题的解决方法
2014/01/28 Javascript
jQuery中对未来的元素绑定事件用bind、live or on
2014/04/17 Javascript
JavaScript中的类(Class)详细介绍
2014/12/30 Javascript
jquery实现的V字形显示效果代码
2015/10/27 Javascript
ClearTimeout消除闪动实例代码
2016/02/29 Javascript
js设置文字颜色的方法示例
2016/12/30 Javascript
JavaScript事件处理程序详解
2017/09/19 Javascript
详解简单易懂的 ES6 Iterators 指南和示例
2019/09/24 Javascript
JavaScript数组类型Array相关的属性与方法详解
2020/09/08 Javascript
Linux下使用python调用top命令获得CPU利用率
2015/03/10 Python
python 容器总结整理
2017/04/04 Python
详解python项目实战:模拟登陆CSDN
2019/04/04 Python
Python 实现Image和Ndarray互相转换
2020/02/19 Python
Python通过2种方法输出带颜色字体
2020/03/02 Python
Django中Q查询及Q()对象 F查询及F()对象用法
2020/07/09 Python
深入了解Python 变量作用域
2020/07/24 Python
Python Tkinter实例——模拟掷骰子
2020/10/24 Python
瑞士首家网上药店折扣店:McDrogerie
2020/12/22 全球购物
运动会开幕式主持词
2014/03/28 职场文书
优秀研究生主要事迹
2014/06/03 职场文书
工业设计专业自荐书
2014/06/05 职场文书
求职信的正确写法
2014/07/10 职场文书
2014年客房服务员工作总结
2014/11/18 职场文书
Nginx域名转发使用场景代码实例
2021/03/31 Servers
Python IO文件管理的具体使用
2022/03/20 Python