python 使用pdfminer3k 读取PDF文档的例子


Posted in Python onAugust 27, 2019

1、安装 pdfminer3k

通过pip安装: pip install pdfminer3k

下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹:

可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成

python 使用pdfminer3k 读取PDF文档的例子


2.读取pdf中的TXT代码示例:

from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

# 可以使用此方法获取网络上的pdf
from urllib.request import urlopen
fp = urlopen("https://******/articles/800348152163.pdf")

#获取文档对象
#fp = open("****.pdf", "rb")

#创建一个一个与文档关联的解释器
parser = PDFParser(fp)

#PDF文档的对象
doc = PDFDocument()

#连接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档,当前文档没有密码,设为空字符串
doc.initialize("")

#创建PDF资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource, laparams=laparam)

#创建PDF页面解释器
interpreter = PDFPageInterpreter(resource, device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
 # 使用页面解释器读取
 interpreter.process_page(page)

 # 使用聚合器来获得内容
 layout = device.get_result()

 for out in layout:
  if hasattr(out, "get_text"):
   print(out.get_text())

以上这篇python 使用pdfminer3k 读取PDF文档的例子就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
分分钟入门python语言
Mar 20 Python
Python 3.6 读取并操作文件内容的实例
Apr 23 Python
python统计字母、空格、数字等字符个数的实例
Jun 29 Python
python去除文件中重复的行实例
Jun 29 Python
Flask框架Flask-Login用法分析
Jul 23 Python
python给微信好友定时推送消息的示例
Feb 20 Python
python中字符串数组逆序排列方法总结
Jun 23 Python
Django组件content-type使用方法详解
Jul 19 Python
python多进程并发demo实例解析
Dec 13 Python
将tensorflow模型打包成PB文件及PB文件读取方式
Jan 23 Python
python实现网页录音效果
Oct 26 Python
python爬虫scrapy基本使用超详细教程
Feb 20 Python
手写一个python迭代器过程详解
Aug 27 #Python
浅析Python语言自带的数据结构有哪些
Aug 27 #Python
python3应用windows api对后台程序窗口及桌面截图并保存的方法
Aug 27 #Python
python协程gevent案例 爬取斗鱼图片过程解析
Aug 27 #Python
Python中Unittest框架的具体使用
Aug 27 #Python
详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决
Aug 27 #Python
Python3分析处理声音数据的例子
Aug 27 #Python
You might like
实用函数7
2007/11/08 PHP
从康盛产品(discuz)提取出来的模板类
2011/06/28 PHP
PHP函数preg_match_all正则表达式的基本使用详细解析
2013/08/31 PHP
PHP中的gzcompress、gzdeflate、gzencode函数详解
2014/07/29 PHP
php获取从百度、谷歌等搜索引擎进入网站关键词的方法
2015/07/08 PHP
制作个性化的WordPress登陆界面的实例教程
2016/05/21 PHP
php数组和链表的区别总结
2019/09/20 PHP
jquery 上下滚动广告
2009/06/17 Javascript
JS模拟面向对象全解(一、类型及传递)
2011/07/13 Javascript
jQuery获得内容和属性方法及示例
2013/12/02 Javascript
JS实现页面超时后自动跳转到登陆页面
2015/01/19 Javascript
网站申请不到支付宝接口、微信接口,免接口收款实现方式几种解决办法
2016/12/14 Javascript
JS正则RegExp.test()使用注意事项(不具有重复性)
2016/12/28 Javascript
Angular.js自动化测试之protractor详解
2017/07/07 Javascript
javascript中的this作用域详解
2019/07/15 Javascript
在Vue中使用Viser说明(基于AntV-G2可视化引擎)
2020/10/28 Javascript
vant-ui组件调用Dialog弹窗异步关闭操作
2020/11/04 Javascript
JavaScript实现原型封装轮播图
2020/12/27 Javascript
[05:41]2014DOTA2西雅图国际邀请赛 小组赛7月10日TOPPLAY
2014/07/10 DOTA
django manage.py扩展自定义命令方法
2018/05/27 Python
浅谈python中真正关闭socket的方法
2018/12/18 Python
关于Numpy中的行向量和列向量详解
2019/11/30 Python
Python scrapy爬取小说代码案例详解
2020/07/09 Python
Python3 ffmpeg视频转换工具使用方法解析
2020/08/10 Python
在html5的Canvas上绘制椭圆的几种方法总结
2013/01/07 HTML / CSS
html5开发之viewport使用
2013/10/17 HTML / CSS
拉夫劳伦爱尔兰官方网站:Ralph Lauren爱尔兰
2020/04/10 全球购物
UNIX文件系统分类
2014/11/11 面试题
珍惜水资源建议书
2014/03/12 职场文书
爱护草坪标语
2014/06/24 职场文书
迎新年主持词
2015/07/06 职场文书
大学生先进个人主要事迹材料
2015/11/04 职场文书
五星级酒店宣传口号
2015/12/25 职场文书
思想品德课教学反思
2016/02/24 职场文书
redis客户端实现高可用读写分离的方式详解
2021/07/04 Redis
5种 JavaScript 方式实现数组扁平化
2021/10/05 Javascript