python从PDF中提取数据的示例


Posted in Python onOctober 30, 2020

01

前言

数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据。然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了解如何从pdf文件中提取数据,并将数据转换为诸如“csv”之类的格式,以便用于分析或构建模型。

在本文中,我们将重点讨论如何从pdf文件中提取数据表。类似的分析可以用于从pdf文件中提取其他类型的数据,如文本或图像。我们将说明如何从pdf文件中提取数据表,然后将其转换为适合于进一步分析和构建模型的格式。我们将给出一个实例。

python从PDF中提取数据的示例

02

示例:使用Python从PDF文件中提取一个表格

a)将表复制到Excel并保存为table_1_raw.csv

python从PDF中提取数据的示例

数据以一维格式存储,必须进行重塑、清理和转换。

b)导入必要的库

import pandas as pd
import numpy as np

c)导入原始数据,重新定义数据

df=pd.read_csv("table_1_raw.csv", header=None)
df.values.shape
df2=pd.DataFrame(df.values.reshape(25,10))
column_names=df2[0:1].values[0]
df3=df2[1:]
df3.columns = df2[0:1].values[0]
df3.head()

python从PDF中提取数据的示例

d)使用字符串处理工具进行数据纠缠

我们从上面的表格中注意到,x5、x6和x7列是用百分比表示的,所以我们需要去掉percent(%)符号:

df4['x5']=list(map(lambda x: x[:-1], df4['x5'].values))
df4['x6']=list(map(lambda x: x[:-1], df4['x6'].values))
df4['x7']=list(map(lambda x: x[:-1], df4['x7'].values))

e)将数据转换为数字形式

我们注意到列x5、x6和x7的列值数据类型为string,因此我们需要将它们转换为数值数据,如下所示:

df4['x5']=[float(x) for x in df4['x5'].values]
df4['x6']=[float(x) for x in df4['x6'].values]
df4['x7']=[float(x) for x in df4['x7'].values]

f)查看转换数据的最终形式

df4.head(n=5)

python从PDF中提取数据的示例

g)导出最终数据到一个csv文件

df4.to_csv('table_1_final.csv',index=False)

以上就是python从PDF中提取数据的示例的详细内容,更多关于python 提取PDF数据的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
kNN算法python实现和简单数字识别的方法
Nov 18 Python
Python实现网站文件的全备份和差异备份
Nov 30 Python
使用python实现生成用户信息
Mar 20 Python
详解Numpy中的广播原则/机制
Sep 20 Python
Django框架使用mysql视图操作示例
May 15 Python
python3+django2开发一个简单的人员管理系统过程详解
Jul 23 Python
python爬虫添加请求头代码实例
Dec 28 Python
selenium 多窗口切换的实现(windows)
Jan 18 Python
python使用python-pptx删除ppt某页实例
Feb 14 Python
tensorflow2.0的函数签名与图结构(推荐)
Apr 28 Python
Python字典取键、值对的方法步骤
Sep 30 Python
Python识别花卉种类鉴定网络热门植物并自动整理分类
Apr 08 Python
详解python百行有效代码实现汉诺塔小游戏(简约版)
Oct 30 #Python
python boto和boto3操作bucket的示例
Oct 30 #Python
python 多进程和协程配合使用写入数据
Oct 30 #Python
python打包生成so文件的实现
Oct 30 #Python
pytorch 移动端部署之helloworld的使用
Oct 30 #Python
把Anaconda中的环境导入到Pycharm里面的方法步骤
Oct 30 #Python
Python模拟登录和登录跳转的参考示例
Oct 30 #Python
You might like
php获取post中的json数据的实现方法
2011/06/08 PHP
PHP网页游戏学习之Xnova(ogame)源码解读(三)
2014/06/23 PHP
必须收藏的php实用代码片段
2016/02/02 PHP
Yii rules常用规则示例
2016/03/15 PHP
laravel中短信发送验证码的实现方法
2018/04/25 PHP
JQuery 表格操作(交替显示、拖动表格行、选择行等)
2009/07/29 Javascript
从数组中随机取x条不重复数据的JS代码
2013/12/24 Javascript
一个JavaScript防止表单重复提交的实例
2014/10/21 Javascript
js实现的Easy Tabs选项卡用法实例
2015/09/06 Javascript
JavaScript tab选项卡插件实例代码
2016/02/23 Javascript
jQuery插件实现图片轮播特效
2016/06/16 Javascript
AngularJS 面试题集锦
2016/09/06 Javascript
Canvas 制作动态进度加载水球详解及实例代码
2016/12/09 Javascript
easyUI实现类似搜索框关键词自动提示功能示例代码
2016/12/27 Javascript
jquery平滑滚动到顶部插件使用详解
2017/05/08 jQuery
nodejs发送http请求时遇到404长时间未响应的解决方法
2017/12/10 NodeJs
2种在vue项目中使用百度地图的简单方法
2018/09/28 Javascript
OpenLayers3实现测量功能
2020/09/25 Javascript
Python爬取Coursera课程资源的详细过程
2014/11/04 Python
pymongo实现多结果进行多列排序的方法
2015/05/16 Python
Python设计模式之MVC模式简单示例
2018/01/10 Python
关于Python形参打包与解包小技巧分享
2019/08/24 Python
详解Ubuntu环境下部署Django+uwsgi+nginx总结
2020/04/02 Python
在python里使用await关键字来等另外一个协程的实例
2020/05/04 Python
keras 自定义loss层+接受输入实例
2020/06/28 Python
Python中的With语句的使用及原理
2020/07/29 Python
bareMinerals官网:矿物质化妆品和护肤品
2018/02/04 全球购物
Foreo国际站:Foreo International
2018/10/29 全球购物
大学生职业生涯规划书模板
2014/01/03 职场文书
初一地理教学反思
2014/01/16 职场文书
《李时珍夜宿古寺》教学反思
2014/04/09 职场文书
学校课外活动总结
2014/05/08 职场文书
2014年国庆节活动总结
2014/08/26 职场文书
刑事辩护授权委托书范本
2014/10/17 职场文书
格列夫游记读书笔记
2015/07/01 职场文书
python 利用PyAutoGUI快速构建自动化操作脚本
2021/05/31 Python