python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用pycharm生成代码模板的实例
May 23 Python
python 获取一个值在某个区间的指定倍数的值方法
Nov 12 Python
python代码 FTP备份交换机配置脚本实例解析
Aug 01 Python
Python paramiko模块使用解析(实现ssh)
Aug 30 Python
python tkinter控件布局项目实例
Nov 04 Python
浅谈python中统计计数的几种方法和Counter详解
Nov 07 Python
pytorch 求网络模型参数实例
Dec 30 Python
python统计函数库scipy.stats的用法解析
Feb 25 Python
python爬虫容易学吗
Jun 02 Python
python中Tkinter 窗口之输入框和文本框的实现
Apr 12 Python
http通过StreamingHttpResponse完成连续的数据传输长链接方式
Feb 12 Python
python 安全地删除列表元素的方法
Mar 16 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
php去掉字符串的最后一个字符附substr()的用法
2011/03/23 PHP
php阳历转农历优化版
2016/08/08 PHP
php设计模式之工厂模式用法经典实例分析
2019/09/20 PHP
可兼容IE的获取及设置cookie的jquery.cookie函数方法
2013/09/02 Javascript
jQuery中filter()和find()的区别深入了解
2013/09/25 Javascript
jQuery多媒体插件jQuery Media Plugin使用详解
2014/12/19 Javascript
Javascript中arguments和arguments.callee的区别浅析
2015/04/24 Javascript
javascript删除元素节点removeChild()用法实例
2015/05/26 Javascript
Position属性之relative用法
2015/12/14 Javascript
VueJs组件之父子通讯的方式
2018/05/06 Javascript
vue动态子组件的两种实现方式
2019/09/01 Javascript
layui 监听select选择 获取当前select的ID名称方法
2019/09/24 Javascript
vue学习笔记之过滤器的基本使用方法实例分析
2020/02/01 Javascript
js实现移动端图片滑块验证功能
2020/09/29 Javascript
Python实现115网盘自动下载的方法
2014/09/30 Python
利用Python绘制MySQL数据图实现数据可视化
2015/03/30 Python
python实现同时给多个变量赋值的方法
2015/04/30 Python
Windows下实现Python2和Python3两个版共存的方法
2015/06/12 Python
利用Tkinter(python3.6)实现一个简单计算器
2017/12/21 Python
Python global全局变量函数详解
2018/09/18 Python
pycharm: 恢复(reset) 误删文件的方法
2018/10/22 Python
python-itchat 统计微信群、好友数量,及原始消息数据的实例
2019/02/21 Python
澳大利亚家具和家居用品在线商店:Interiors Online
2018/03/05 全球购物
潘多拉珠宝美国官方网站:Pandora US
2020/06/18 全球购物
简述使用ftp进行文件传输时的两种登录方式?它们的区别是什么?常用的ftp文件传输命令是什么?
2016/11/20 面试题
鞋类设计与工艺专业销售求职信
2013/11/01 职场文书
酒店执行总经理岗位职责
2013/12/15 职场文书
《从现在开始》教学反思
2014/04/15 职场文书
工程索赔意向书
2014/08/30 职场文书
党章培训心得体会
2014/09/04 职场文书
个人查摆剖析材料
2014/10/16 职场文书
捐款感谢信
2015/01/20 职场文书
清明节扫墓活动总结
2015/02/09 职场文书
警示教育观后感
2015/06/17 职场文书
python通过opencv调用摄像头操作实例分析
2021/06/07 Python
Go遍历struct,map,slice的实现
2021/06/13 Golang