python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python运行的17个时新手常见错误小结
Aug 07 Python
Python中super关键字用法实例分析
May 28 Python
Python基于pygame实现图片代替鼠标移动效果
Nov 11 Python
uwsgi+nginx部署Django项目操作示例
Dec 04 Python
python 获取图片分辨率的方法
Jan 08 Python
介绍一款python类型检查工具pyright(推荐)
Jul 03 Python
Django密码存储策略分析
Jan 09 Python
pyecharts调整图例与各板块的位置间距实例
May 16 Python
QT5 Designer 打不开的问题及解决方法
Aug 20 Python
Pycharm如何自动生成头文件注释
Nov 14 Python
解决Pycharm 运行后没有输出的问题
Feb 05 Python
Python中的流程控制详解
Feb 18 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
匹配csdn用户数据库与官方用户的重合度并将重叠部分的用户筛选出来
2011/12/25 PHP
兼容各大浏览器带关闭按钮的漂浮多组图片广告代码
2014/06/05 PHP
PHP生成等比缩略图类和自定义函数分享
2014/06/25 PHP
比较简单实用的使用正则三种版本的js去空格处理方法
2007/11/18 Javascript
给页面渲染时间加速 干掉Dom Level 0 Event
2012/12/19 Javascript
使用jquery mobile做幻灯播放效果实现步骤
2013/01/04 Javascript
js数组去重的常用方法总结
2014/01/24 Javascript
js 触发select onchange事件代码
2014/03/20 Javascript
jQuery中prepend()方法用法实例
2014/12/25 Javascript
jQuery源码解读之removeAttr()方法分析
2015/02/20 Javascript
浅谈setTimeout 与 setInterval
2015/06/23 Javascript
Bootstrap项目实战之子栏目资讯内容
2016/04/25 Javascript
js判断出两个字符串最大子串的函数实现方法
2016/11/01 Javascript
React中ES5与ES6写法的区别总结
2017/04/21 Javascript
微信小程序解除10个请求并发限制
2018/12/18 Javascript
微信小程序基于canvas渐变实现的彩虹效果示例
2019/05/03 Javascript
深入了解响应式React Native Echarts组件
2019/05/29 Javascript
vue 微信分享回调iOS和安卓回调出现错误的解决
2020/09/07 Javascript
在vant中使用时间选择器和popup弹出层的操作
2020/11/04 Javascript
python使用Flask框架获取用户IP地址的方法
2015/03/21 Python
Python实现的爬虫功能代码
2017/06/24 Python
python中日志logging模块的性能及多进程详解
2017/07/18 Python
对python中的for循环和range内置函数详解
2018/04/17 Python
python贪婪匹配以及多行匹配的实例讲解
2018/04/19 Python
Python的互斥锁与信号量详解
2019/09/12 Python
使用python实现哈希表、字典、集合操作
2019/12/22 Python
python turtle工具绘制四叶草的实例分享
2020/02/14 Python
Python过滤序列元素的方法
2020/07/31 Python
html5录音功能实战示例
2019/03/25 HTML / CSS
北美领先的智能产品购物网站:Wellbots
2018/06/11 全球购物
德国最大的婴儿用品网上商店:Kidsroom.de(支持中文)
2020/09/02 全球购物
英文演讲稿开场白
2014/08/25 职场文书
公务员处分决定书
2015/06/25 职场文书
2016公司年会主持词
2015/07/01 职场文书
2016个人先进事迹材料范文
2016/03/01 职场文书
2019最新版试用期劳动合同模板!
2019/07/04 职场文书