python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用logging模块代替print(logging简明指南)
Jul 09 Python
python 文件操作api(文件操作函数)
Aug 28 Python
python3+PyQt5重新实现自定义数据拖放处理
Apr 19 Python
Python中存取文件的4种不同操作
Jul 02 Python
python使用pandas处理大数据节省内存技巧(推荐)
May 05 Python
Python3 串口接收与发送16进制数据包的实例
Jun 12 Python
Win10+GPU版Pytorch1.1安装的安装步骤
Sep 27 Python
解决Jupyter因卸载重装导致的问题修复
Apr 10 Python
python中前缀运算符 *和 **的用法示例详解
May 28 Python
如何对python的字典进行排序
Jun 19 Python
keras的backend 设置 tensorflow,theano操作
Jun 30 Python
Python实现信息轰炸工具(再也不怕说不过别人了)
Jun 11 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
全国FM电台频率大全 - 14 江西省
2020/03/11 无线电
php加密算法之实现可逆加密算法和解密分享
2014/01/21 PHP
ThinkPHP3.1.3版本新特性概述
2014/06/19 PHP
PHP return语句另类用法不止是在函数中
2014/09/17 PHP
php简单判断两个字符串是否相等的方法
2015/07/13 PHP
使用PHPStorm+XDebug搭建单步调试环境
2017/11/19 PHP
关于PHP虚拟主机概念及如何选择稳定的PHP虚拟主机
2018/11/20 PHP
PHP安全之register_globals的on和off的区别
2020/07/23 PHP
xml和web特殊字符
2009/04/28 Javascript
javascript 面向对象全新理练之数据的封装
2009/12/03 Javascript
jquery多浏览器捕捉回车事件代码
2010/06/22 Javascript
js清理Word格式示例代码
2014/02/13 Javascript
JavaScript检测实例属性, 原型属性
2015/02/04 Javascript
nodejs调用cmd命令实现复制目录
2015/05/04 NodeJs
vue.js入门教程之基础语法小结
2016/09/01 Javascript
Bootstrap文件上传组件之bootstrap fileinput
2016/11/25 Javascript
vuejs使用递归组件实现树形目录的方法
2017/09/30 Javascript
微信小程序实现图片懒加载的示例代码
2017/12/13 Javascript
vue鼠标移入添加class样式,鼠标移出去除样式(active)实现方法
2018/08/22 Javascript
Vuex mutitons和actions初使用详解
2019/03/04 Javascript
原生js实现获取form表单数据代码实例
2019/03/27 Javascript
ElementUI之Message功能拓展详解
2019/10/18 Javascript
js实现从右往左匀速显示图片(无缝轮播)
2020/06/29 Javascript
python实现人脸识别经典算法(一) 特征脸法
2018/03/13 Python
新年快乐! python实现绚烂的烟花绽放效果
2019/01/30 Python
python中下标和切片的使用方法解析
2019/08/27 Python
Blue Nile台湾:钻石珠宝商,订婚首饰、结婚戒指和精品首饰
2017/11/24 全球购物
英国领先的票务代理商之一:The Ticket Factory
2019/02/09 全球购物
耐克奥地利官网:Nike奥地利
2019/08/16 全球购物
JD Sports澳洲官网:英国领先的运动鞋和运动时尚零售商
2020/02/15 全球购物
电子商务专业学生的学习自我评价
2013/10/27 职场文书
电话销售经理岗位职责
2013/12/07 职场文书
《秋姑娘的信》教学反思
2014/02/28 职场文书
厉行勤俭节约倡议书
2014/05/16 职场文书
汉语专业毕业生自荐信
2014/07/06 职场文书
2014年公务员转正工作总结
2014/11/07 职场文书