python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python操作CouchDB的方法
Oct 08 Python
django1.8使用表单上传文件的实现方法
Nov 04 Python
解决python使用open打开文件中文乱码的问题
Dec 29 Python
Python实现可自定义大小的截屏功能
Jan 20 Python
基于Python的ModbusTCP客户端实现详解
Jul 13 Python
PyCharm导入python项目并配置虚拟环境的教程详解
Oct 13 Python
python字符串格式化方式解析
Oct 19 Python
Python3 pickle对象串行化代码实例解析
Mar 23 Python
Python requests.post方法中data与json参数区别详解
Apr 30 Python
Python3 用matplotlib绘制sigmoid函数的案例
Dec 11 Python
用python制作个视频下载器
Feb 01 Python
Python爬虫之用Xpath获取关键标签实现自动评论盖楼抽奖(二)
Jun 07 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
php实现memcache缓存示例讲解
2013/12/04 PHP
php实现zip压缩文件解压缩代码分享(简单易懂)
2014/05/10 PHP
PHP获取表单所有复选框的值的方法
2014/08/28 PHP
PHP curl使用实例
2015/07/02 PHP
javascript中的作用域和上下文使用简要概述
2013/12/05 Javascript
jquery选择符快速提取web表单数据示例
2014/03/27 Javascript
理解javascript中DOM事件
2015/12/25 Javascript
jQuery实现的表格展开伸缩效果实例
2016/09/07 Javascript
js如何判断是否在iframe中及防止网页被别站用iframe嵌套
2017/01/11 Javascript
js实现文字跑马灯效果
2017/02/23 Javascript
自定义vue全局组件use使用、vuex的使用详解
2017/06/14 Javascript
ES6入门教程之let、const的使用方法
2019/04/13 Javascript
Element-ui DatePicker显示周数的方法示例
2019/07/19 Javascript
关于layui的动态图标不显示的解决方法
2019/09/04 Javascript
js DOM的事件常见操作实例详解
2019/12/16 Javascript
手机浏览器唤起微信分享(JS)
2020/10/11 Javascript
python处理csv数据的方法
2015/03/11 Python
初步介绍Python中的pydoc模块和distutils模块
2015/04/13 Python
Python 基础教程之包和类的用法
2017/02/23 Python
Python测试人员需要掌握的知识
2018/02/08 Python
对django layer弹窗组件的使用详解
2019/08/31 Python
Python常见反爬虫机制解决方案
2020/06/01 Python
python删除指定列或多列单个或多个内容实例
2020/06/28 Python
Maison Lab荷兰:名牌Outlet购物
2018/08/10 全球购物
有趣、实用和鼓舞人心的产品:Inspire Uplift
2019/11/05 全球购物
西班牙用户之间买卖视频游戏的平台:Wakkap
2020/03/21 全球购物
女大学生自我鉴定
2013/12/09 职场文书
yy结婚证婚词
2014/01/10 职场文书
财务会计人员求职的自我评价
2014/01/13 职场文书
聚美优品的广告词
2014/03/14 职场文书
中层领导干部群众路线对照检查材料思想汇报
2014/10/02 职场文书
初中语文教师研修日志
2015/11/13 职场文书
幼儿园2016年感恩节活动总结
2016/04/01 职场文书
MySQL中你可能忽略的COLLATION实例详解
2021/05/12 MySQL
Python采集股票数据并制作可视化柱状图
2022/04/04 Python
vue里使用create, mounted调用方法
2022/04/26 Vue.js