编程 Python

Python遍历pandas数据方法总结

Posted in Python onFebruary 09, 2018

前言

Pandas是python的一个数据分析包，提供了大量的快速便捷处理数据的函数和方法。其中Pandas定义了Series 和 DataFrame两种数据类型，这使数据操作变得更简单。Series 是一种一维的数据结构，类似于将列表数据值与索引值相结合。DataFrame 是一种二维的数据结构，接近于电子表格或者mysql数据库的形式。

在数据分析中不可避免的涉及到对数据的遍历查询和处理，比如我们需要将dataframe两列数据两两相除，并将结果存储于一个新的列表中。本文通过该例程介绍对pandas数据遍历的几种方法。

for..in循环迭代方式

for语句是Python内置的迭代器工具，用于从可迭代容器对象（如列表、元组、字典、集合、文件等）中逐个读取元素，直到容器中没有更多元素为止，工具和对象之间只要遵循可迭代协议即可进行迭代操作。
具体的迭代的过程：可迭代对象通过__iter__方法返回迭代器，迭代器具有__next__方法，for循环不断地调用__next__方法，每次按序返回迭代器中的一个值，直到迭代到最后，没有更多元素时抛出异常StopIteration（python自动处理异常）。迭代的优点是无需把所有元素一次加载到内存中，可以在调用next方法时逐个返回元素，避免出现内存空间不够的情况。

>>> x = [1,2,3]
>>> its = x.__iter__() #列表是可迭代对象，否则会提示不是迭代对象
>>> its
<list_iterator object at 0x100f32198>
>>> next(its) # its包含此方法，说明its是迭代器
1
>>> next(its) 
2
>>>next(its) 
3
>>> next(its) 
Traceback (most recent call last):
 File "<stdin>", line 1, in <module>
StopIteration

Python遍历pandas数据方法总结

实现代码如下：

def haversine_looping(df):
disftance_list = []
for i in range(0,len(df)):
 disftance_list.append(df.iloc[i][‘high']/df.iloc[i][‘open'])
 return disftance_list

关于上述代码中range的实现方法，我们也可根据迭代器协议自实现相同功能的迭代器（自带iter方法和next方法）应用在for循环中，代码如下：

class MyRange:
 def __init__(self, num):
  self.i = 0
  self.num = num
 def __iter__(self):
  return self
 def __next__(self):
  if self.i < self.num:
  i = self.i
  self.i += 1
  return i
  else:
  raise StopIteration()
 for i in MyRange(10):
 print(i)

我们也可以通过列表解析的方式用更少的代码实现数据处理功能

disftance_list = [df.iloc[i][‘high']/df.iloc[i][‘open'] for i in range(0,len(df))]

iterrows()生成器方式

iterrows是对dataframe行进行迭代的一个生成器，它返回每行的索引及包含行本身的对象。所谓生成器其实是一种特殊的迭代器，内部支持了迭代器协议。Python中提供生成器函数和生成器表达式两种方式实现生成器，每次请求返回一个结果，不需要一次性构建一个结果列表，节省了内存空间。

生成器函数：编写为常规的def语句，但是使用yield语句一次返回一个结果，在每个结果之间挂起和继续它们的状态。

def gensquares(N):
 for i in range(N):
 yield i**2 
print gensquares(5)
for i in gensquares(5):
 print(i) 

<generator object gensquares at 0xb3d37fa4>
0
1
4
9
16

生成器表达式：类似列表解析，按需产生结果的一个对象。

print (x**2 for x in range(5))
print list(x**2 for x in range(5))
<generator object <genexpr> at 0xb3d31fa4>
[0, 1, 4, 9, 16]

iterrows()实现代码如下：

def haversine_looping(df):
disftance_list = []
for index,row in df.iterrows():
 disftance_list.append(row[‘high']/row[‘open'])
 return disftance_list

iterrows代码如下，yield语句挂起该函数并向调用者发送回一组值：

def iterrows(self):
 columns = self.columns
 klass = self._constructor_sliced
 for k, v in zip(self.index, self.values):
  s = klass(v, index=columns, name=k)
  yield k, s

apply()方法循环方式

apply()方法可将函数应用于dataframe特定行或列。函数由lambda方式在代码中内嵌实现，lambda函数的末尾包含axis参数，用来告知Pandas将函数运用于行（axis = 1）或者列（axis = 0）。

实现代码如下：

df.apply(lambda row: row[‘high']/row[‘open'], axis =1)

Pandas series 的矢量化方式

Pandas的DataFrame、series基础单元数据结构基于链表，因此可将函数在整个链表上进行矢量化操作，而不用按顺序执行每个值。Pandas包括了非常丰富的矢量化函数库，我们可把整个series（列）作为参数传递，对整个链表进行计算。

实现代码如下：

dftest4['rate'] = dftest4['high']/dftest4['open']

Numpy arrays的矢量化方式

由于函数的矢量化实现中只使用了series的数值，因此可使用values 方法将链表从Pandas series转换为NumPy arrays，把NumPy array作为参数传递，对整个链表进行计算。

实现代码如下：

dftest5['rate'] = dftest5['high'].values/dftest5['open'].values

总结

使用timeit方法对以上几种遍历方式进行执行时间测试，测试结果如下。可以看出循环执行的速度是最慢的，iterrows()针对Pandas的dataframe进行了优化，相比直接循环有显著提升。apply()方法也是在行之间进行循环，但由于利用了类似Cython的迭代器的一系列全局优化，其效率要比iterrows高很多。NumPy arrays的矢量化运行速度最快，其次是Pandas series矢量化。由于矢量化是同时作用于整个序列的，可以节省更多的时间，相比使用标量操作更好，NumPy使用预编译的C代码在底层进行优化，同时也避免了Pandas series操作过程中的很多开销，例如索引、数据类型等等，因此，NumPy arrays的操作要比Pandas series快得多。

Python遍历pandas数据方法总结

- Author -

laozhang

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

学习python之编写简单简单连接数据库并执行查询操作

Feb 27 Python

Python 高级专用类方法的实例详解

Sep 11 Python

python使用正则表达式替换匹配成功的组并输出替换的次数

Nov 22 Python

分析Python读取文件时的路径问题

Feb 11 Python

PyCharm代码格式调整方法

May 23 Python

python文件操作之批量修改文件后缀名的方法

Aug 10 Python

Python箱型图绘制与特征值获取过程解析

Oct 22 Python

Python3中configparser模块读写ini文件并解析配置的用法详解

Feb 18 Python

新手学习Python2和Python3中print不同的用法

Jun 09 Python

利用python下载scihub成文献为PDF操作

Jul 09 Python

python语言实现贪吃蛇游戏

Nov 13 Python

python中的装饰器该如何使用

Jun 18 Python

python中的闭包函数

Feb 09 #Python

基于Python socket的端口扫描程序实例代码

Feb 09 #Python

利用python 更新ssh 远程代码操作远程服务器的实现代码

Feb 08 #Python

Tensorflow 利用tf.contrib.learn建立输入函数的方法

Feb 08 #Python

django数据库migrate失败的解决方法解析

Feb 08 #Python

python使用锁访问共享变量实例解析

Feb 08 #Python

Python异常对代码运行性能的影响实例解析

Feb 08 #Python

You might like

linux php mysql数据库备份实现代码

2009/03/10 PHP

phpstorm配置Xdebug进行调试PHP教程

2014/12/01 PHP

[原创]来自ImageSee官方 JavaScript图片浏览器

2008/01/16 Javascript

JavaScript 基础问答三

2008/12/03 Javascript

Javascript实现关联数据(Linked Data)查询及注意细节

2013/02/22 Javascript

客户端js判断文件类型和文件大小即限制上传大小

2013/11/20 Javascript

JS截取url中问号后面参数的值信息

2014/04/29 Javascript

详谈JavaScript内存泄漏

2014/11/14 Javascript

javascript实现切换td中的值

2014/12/05 Javascript

实例讲解jquery与json的结合

2016/01/07 Javascript

JS中正则表达式要注意lastIndex属性

2017/08/08 Javascript

vue复合组件实现注册表单功能

2017/11/06 Javascript

Vuejs中使用markdown服务器端渲染的示例

2017/11/22 Javascript

关于 angularJS的一些用法

2017/11/29 Javascript

Vue 源码分析之 Observer实现过程

2018/03/29 Javascript

vue 中滚动条始终定位在底部的方法

2018/09/03 Javascript

JS实现随机生成10个手机号的方法示例

2018/12/07 Javascript

基于JS实现web端录音与播放功能

2019/04/17 Javascript

Vue路由之JWT身份认证的实现方法

2019/08/26 Javascript

Vue axios获取token临时令牌封装案例

2020/09/11 Javascript

[01:02:48]2018DOTA2亚洲邀请赛小组赛 A组加赛 Newbee vs Liquid

2018/04/03 DOTA

Python在信息学竞赛中的运用及Python的基本用法(详解)

2017/08/15 Python

matplotlib实现区域颜色填充

2019/03/18 Python

Tensorflow的常用矩阵生成方式

2020/01/04 Python

详解Pycharm安装及Django安装配置指南

2020/09/15 Python

python实现b站直播自动发送弹幕功能

2021/02/20 Python

python 中 .py文件转 .pyd文件的操作

2021/03/04 Python

CSS3制作气泡对话框的实例教程

2016/05/10 HTML / CSS

html5之Canvas路径绘图、坐标变换应用实例

2012/12/26 HTML / CSS

AmazeUI 图标的示例代码

2020/08/13 HTML / CSS

网络维护管理员的自我评价分享

2013/11/11 职场文书

外贸实习生自荐信范文

2013/11/24 职场文书

大学毕业生管理学求职信

2014/09/01 职场文书

国际政治学专业推荐信

2014/09/26 职场文书

小学一年级学生评语大全

2014/12/25 职场文书

Python+Matplotlib图像上指定坐标的位置添加文本标签与注释

2022/04/11 Python