python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现的一个火车票转让信息采集器
Jul 09 Python
Python创建xml文件示例
Mar 22 Python
python如何爬取个性签名
Jun 19 Python
Django数据库类库MySQLdb使用详解
Apr 28 Python
python适合人工智能的理由和优势
Jun 28 Python
python之拟合的实现
Jul 19 Python
python3图片文件批量重命名处理
Oct 31 Python
在pycharm中为项目导入anacodna环境的操作方法
Feb 12 Python
Python日志logging模块功能与用法详解
Apr 09 Python
利用Python如何实时检测自身内存占用
May 09 Python
Python中的wordcloud库安装问题及解决方法
May 27 Python
python 三种方法实现对Excel表格的读写
Nov 19 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
缅甸的咖啡简史
2021/03/04 咖啡文化
用header 发送cookie的php代码
2007/03/16 PHP
php学习笔记 数组遍历实现代码
2011/06/09 PHP
php发送post请求函数分享
2014/03/06 PHP
PHP实现检测客户端是否使用代理服务器及其匿名级别
2015/01/07 PHP
用jquery等比例控制图片宽高的具体实现
2014/01/28 Javascript
css结合js制作下拉菜单示例代码
2014/02/27 Javascript
JS获得选取checkbox整行数据的方法
2015/01/28 Javascript
javascript中Date format(js日期格式化)方法小结
2015/12/17 Javascript
初步使用bootstrap快速创建页面
2016/03/03 Javascript
Angular学习笔记之angular的$filter服务浅析
2016/11/12 Javascript
javascript和jQuery中的AJAX技术详解【包含AJAX各种跨域技术】
2016/12/15 Javascript
基于JS脚本语言的基础语法详解
2017/07/22 Javascript
JS 中document.write()的用法和清空的原因浅析
2017/12/04 Javascript
关于react-router/react-router-dom v4 history不能访问问题的解决
2018/01/08 Javascript
JavaScript判断浏览器运行环境的详细方法
2019/06/30 Javascript
详解小程序如何动态绑定点击的执行方法
2019/11/26 Javascript
通过实例了解Nodejs模块系统及require机制
2020/07/16 NodeJs
[01:03]悬念揭晓 11月26日DOTA2完美盛典不见不散
2017/11/23 DOTA
[43:57]LGD vs Mineski 2018国际邀请赛小组赛BO2 第二场 8.19
2018/08/21 DOTA
[01:59]翻天覆地,因你而变,7.20版本地图更新速览
2018/11/24 DOTA
python3.7 使用pymssql往sqlserver插入数据的方法
2019/07/08 Python
如何实现Django Rest framework版本控制
2019/07/25 Python
python自动保存百度盘资源到百度盘中的实例代码
2019/08/26 Python
Python使用pycharm导入pymysql教程
2020/09/16 Python
python绕过图片滑动验证码实现爬取PTA所有题目功能 附源码
2021/01/06 Python
使用HTML和CSS3绘制基本卡通图案的示例分享
2015/11/06 HTML / CSS
CSS3中Transition动画属性用法详解
2016/07/04 HTML / CSS
css3实现二维码扫描特效的示例
2020/10/29 HTML / CSS
如何利用XMLHTTP检测URL及探测服务器信息
2013/11/10 面试题
会计专业自我鉴定
2014/02/10 职场文书
中专毕业生的自荐书
2014/07/01 职场文书
英语系毕业生求职信
2014/07/13 职场文书
医药公司采购员岗位职责
2014/09/12 职场文书
英语复习计划
2015/01/19 职场文书
详解MySQL集群搭建
2021/05/26 MySQL