python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3通过Luhn算法快速验证信用卡卡号的方法
May 14 Python
Python 比较两个数组的元素的异同方法
Aug 17 Python
python利用paramiko连接远程服务器执行命令的方法
Oct 16 Python
python编写Logistic逻辑回归
Dec 30 Python
Python基于lxml模块解析html获取页面内所有叶子节点xpath路径功能示例
May 16 Python
使用python读取csv文件快速插入数据库的实例
Jun 21 Python
Python构建图像分类识别器的方法
Jan 12 Python
Python3实现汉语转换为汉语拼音
Jul 08 Python
浅谈Pytorch中的torch.gather函数的含义
Aug 18 Python
python实现飞机大战游戏(pygame版)
Oct 26 Python
Python semaphore evevt生产者消费者模型原理解析
Mar 18 Python
Opencv+Python识别PCB板图片的步骤
Jan 07 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
PHP的一个完整SMTP类(解决邮件服务器需要验证时的问题)
2006/10/09 PHP
详解PHP数组赋值方法
2015/11/07 PHP
PHP实践教程之过滤、验证、转义与密码详解
2017/07/24 PHP
JavaScript编写简单的计算器
2015/11/25 Javascript
用JavaScript动态建立或增加CSS样式表的实现方法
2016/05/20 Javascript
JS文件上传神器bootstrap fileinput详解
2021/01/28 Javascript
Bootstrap Modal遮罩弹出层代码分享
2016/11/21 Javascript
Vue项目中使用Vux的安装过程
2018/05/01 Javascript
Javascript实现购物车功能的详细代码
2018/05/08 Javascript
详解JavaScript 中 if / if...else...替换方式
2018/07/15 Javascript
关于layui 下拉列表的change事件详解
2019/09/20 Javascript
vue跳转同一个组件,参数不同,页面接收值只接收一次的解决方法
2019/11/05 Javascript
原生js实现自定义滚动条
2021/01/20 Javascript
[39:08]完美世界DOTA2联赛PWL S3 LBZS vs CPG 第一场 12.12
2020/12/16 DOTA
Python判断值是否在list或set中的性能对比分析
2016/04/16 Python
python字典的常用操作方法小结
2016/05/16 Python
详谈Python基础之内置函数和递归
2017/06/21 Python
Python装饰器原理与用法分析
2018/04/30 Python
Python基于递归算法求最小公倍数和最大公约数示例
2018/07/27 Python
python实现汽车管理系统
2018/11/30 Python
Python实现合并excel表格的方法分析
2019/04/13 Python
python+opencv3.4.0 实现HOG+SVM行人检测的示例代码
2021/01/28 Python
一款利用纯css3实现的超炫3D表单的实例教程
2014/12/01 HTML / CSS
用CSS3绘制三角形的简单方法
2015/07/17 HTML / CSS
CSS3 画基本图形,圆形、椭圆形、三角形等
2016/09/20 HTML / CSS
Melijoe英国官网:法国儿童时尚网站
2016/11/18 全球购物
华三通信H3C面试题
2015/05/15 面试题
六查六看六改心得体会
2014/10/14 职场文书
旷课检讨书
2015/01/26 职场文书
初中重阳节活动总结
2015/05/05 职场文书
养成教育工作总结
2015/08/13 职场文书
2016党员干部政治学习心得体会
2016/01/23 职场文书
2016年妇联“6﹒26国际禁毒日”宣传活动总结
2016/04/05 职场文书
美甲店的创业计划书模板
2019/08/23 职场文书
Go 通过结构struct实现接口interface的问题
2021/10/05 Golang
win11怎么用快捷键锁屏? windows11锁屏的几种方法
2021/11/21 数码科技