python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
netbeans7安装python插件的方法图解
Dec 24 Python
使用Protocol Buffers的C语言拓展提速Python程序的示例
Apr 16 Python
整理Python最基本的操作字典的方法
Apr 24 Python
简单了解Python中的几种函数
Nov 03 Python
多个应用共存的Django配置方法
May 30 Python
对python cv2批量灰度图片并保存的实例讲解
Nov 09 Python
python使用wxpy轻松实现微信防撤回的方法
Feb 21 Python
Python Selenium 设置元素等待的三种方式
Mar 18 Python
Python的历史与优缺点整理
May 26 Python
python Socket网络编程实现C/S模式和P2P
Jun 22 Python
python3 re返回形式总结
Nov 20 Python
pandas中pd.groupby()的用法详解
Jun 16 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
基于pear auth实现登录验证
2010/02/26 PHP
在PHP中实现Javascript的escape()函数代码
2010/08/08 PHP
PHP设计模式 注册表模式(多个类的注册)
2012/02/05 PHP
php mysql like 实现多关键词搜索的方法
2016/10/29 PHP
ExtJS 简介 让你知道extjs是什么
2008/12/29 Javascript
Jquery 例外被抛出且未被接住原因介绍
2013/09/04 Javascript
谷歌Chrome浏览器扩展程序开发小记
2016/01/06 Javascript
Jquery修改image的src属性,图片不加载问题的解决方法
2016/05/17 Javascript
JS 动态判断PC和手机浏览器实现代码
2016/09/21 Javascript
概述jQuery中的ajax方法
2016/12/16 Javascript
详解jQuery简单的表格应用
2016/12/16 Javascript
JavaScript定义全局对象的方法示例
2017/01/12 Javascript
JavaScript实现简单的双色球(实例讲解)
2017/07/31 Javascript
Easyui和zTree两种方式分别实现树形下拉框
2017/08/04 Javascript
jQuery实现表格隔行换色
2018/09/01 jQuery
Vue实现表格中对数据进行转换、处理的方法
2018/09/06 Javascript
vue自定义指令之面板拖拽的实现
2019/04/14 Javascript
vue element upload组件 file-list的动态绑定实现
2019/10/11 Javascript
element-ui树形控件后台返回的数据+生成组织树的工具类
2020/03/05 Javascript
原生js实现html手机端城市列表索引选择城市
2020/06/24 Javascript
[03:52]显微镜下的DOTA2第三期——英雄在无聊的时候干什么
2014/06/20 DOTA
python中不能连接超时的问题及解决方法
2018/06/10 Python
Python3获取电脑IP、主机名、Mac地址的方法示例
2019/04/11 Python
使用 Python 快速实现 HTTP 和 FTP 服务器的方法
2019/07/22 Python
django 基于中间件实现限制ip频繁访问过程详解
2019/07/30 Python
python日期与时间戳的各种转换示例
2020/02/12 Python
python自动点赞功能的实现思路
2020/02/26 Python
浅析css3中matrix函数的使用
2016/06/06 HTML / CSS
软件工程专业推荐信
2013/10/28 职场文书
自动化专业毕业生求职信
2014/06/18 职场文书
干部作风整顿个人剖析材料
2014/10/06 职场文书
2015国际残疾人日活动总结
2015/03/24 职场文书
鸦片战争观后感
2015/06/09 职场文书
健康证明
2015/06/19 职场文书
会计做账心得体会
2016/01/22 职场文书
详解MySQL中的pid与socket
2021/06/15 MySQL