python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中条件选择和循环语句使用方法介绍
Mar 13 Python
跟老齐学Python之dict()的操作方法
Sep 24 Python
Python脚本实现网卡流量监控
Feb 14 Python
python文件选择对话框的操作方法
Jun 27 Python
python使用rsa非对称加密过程解析
Dec 28 Python
Python装饰器原理与基本用法分析
Jan 07 Python
python数据预处理 :数据抽样解析
Feb 24 Python
基于Keras 循环训练模型跑数据时内存泄漏的解决方式
Jun 11 Python
Python如何将将模块分割成多个文件
Aug 04 Python
浅析python中的del用法
Sep 02 Python
Python如何使用ConfigParser读取配置文件
Nov 12 Python
Python学习之包与模块详解
Mar 19 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
《Re:从零开始的异世界生活 冰结之绊》
2020/04/09 日漫
php各种编码集详解和以及在什么情况下进行使用
2011/09/11 PHP
支持中文和其他编码的php截取字符串函数分享(截取中文字符串)
2014/03/13 PHP
使用pthreads实现真正的PHP多线程(需PHP5.3以上版本)
2014/05/05 PHP
PHP简单选择排序算法实例
2015/01/26 PHP
Yii2实现ajax上传图片插件用法
2016/04/28 PHP
Laravel中encrypt和decrypt的实现方法
2017/09/24 PHP
php使用fputcsv实现大数据的导出操作详解
2020/02/27 PHP
索趣科技的答案
2007/02/07 Javascript
Node.js开发指南中的简单实例(mysql版)
2013/09/17 Javascript
JS获取农历日期具体实例
2013/11/14 Javascript
jquery checkbox 勾选的bug问题解决方案与分析
2014/11/13 Javascript
setinterval()与clearInterval()JS函数的调用方法
2015/01/21 Javascript
JavaScript 数组去重并统计重复元素出现的次数实例
2017/12/14 Javascript
JavaScript实现的超简单计算器功能示例
2017/12/23 Javascript
vuex 动态注册方法 registerModule的实现
2019/07/03 Javascript
详解Vue中组件传值的多重实现方式
2019/08/16 Javascript
详解Vue3.0 + TypeScript + Vite初体验
2021/02/22 Vue.js
[01:11:21]DOTA2-DPC中国联赛 正赛 VG vs Elephant BO3 第一场 3月6日
2021/03/11 DOTA
Python自动化测试工具Splinter简介和使用实例
2014/05/13 Python
python清除指定目录内所有文件中script的方法
2015/06/30 Python
使用python加密自己的密码
2015/08/04 Python
PyQt5每天必学之工具提示功能
2018/04/19 Python
python 读取摄像头数据并保存的实例
2018/08/03 Python
Tensorflow分类器项目自定义数据读入的实现
2019/02/05 Python
Python实现爬取亚马逊数据并打印出Excel文件操作示例
2019/05/16 Python
python程序变成软件的实操方法
2019/06/24 Python
pandas进行时间数据的转换和计算时间差并提取年月日
2019/07/06 Python
python针对mysql数据库的连接、查询、更新、删除操作示例
2019/09/11 Python
Django 框架模型操作入门教程
2019/11/05 Python
幼儿园实习自我鉴定
2013/12/15 职场文书
求职自我评价范文100字
2014/09/23 职场文书
2014年乡镇工作总结
2014/11/21 职场文书
2015年营业员工作总结
2015/04/23 职场文书
表彰大会新闻稿
2015/07/17 职场文书
工作违纪的检讨书范文
2019/07/09 职场文书