编程 Python

pandas数据分组和聚合操作方法

Posted in Python onApril 11, 2018

《Python for Data Analysis》

GroupBy

分组运算：split-apply-combine(拆分-应用-合并)

DataFrame可以在其行（axis=0）或列（axis=1）上进行分组。然后，将一个函数应用到各个分组并产生新值。最后，所有这些函数的执行结果会被合并到最终的结果对象中去。

GroupBy的size方法可以返回一个含有分组大小的Series。

对分组进行迭代

for (k1,k2), group in df.groupby(['key1','key2']):
 print k1,k2
 print group

选取一个或一组列

df.groupby(['key1','key2'])[['data2']].mean()

通过字典或Series进行分组

只需将字典或Series传给groupby即可。

通过函数分组

people.groupby(len).sum() #根据人名的长度进行分组

通过索引级别分组

层次化索引数据，根据索引级别进行聚合，通过level关键字传入级别编号或名称。

df.groupby(level='cty',axis=1).count()

数据聚合

经过优化的groupby方法

函数名	说明
count	分组中非NA值得数量
sum	非NA值的和
mean	非NA值的平均值
median	非NA值的算术平均数
std、var	无偏（分母为n-1）标准差和方差
min、max	非NA值的最小值和最大值
prod	非NA值的积
first、last	第一个和最后一个非NA值

对于上述描述统计方法，可以将函数名以字符串的形式传入agg方法。例如：grouped.agg(['mean', 'std'])

如果要使用自己的聚合函数，只需将其传入aggregate或agg方法即可

def peak_to_peak(arr):
 return arr.max() - arr.min()
grouped.agg(peak_to_peak)

面向列的多函数应用，可以对不同的列使用不同的聚合函数或者一次应用多个函数。

如果传入一组函数或函数名，得到的DataFrame的列就会以相应的函数命名

如果传入的是一个由（name,function）元组组成的列表，各个元组的第一个元素就会被用作DataFrame的列名。

不同的列使用不同的聚合函数也可以向agg传入一个从列名映射到函数的字典

grouped.agg(['mean', 'std', peak_to_peak]) # 1
grouped.agg([('foo', 'mean'), ('bar', np.std)]) # 2
functions = ['count', 'mean', 'max']
result = grouped['tip', 'bill'].agg(functions) # 3
grouped.agg({'tip' : np.max, 'bill' : 'sum'}) # 4

分组级运算和转换

transform

transform会将一个函数应用到各个分组，然后将结果放置到适当的位置上。如果各个分组产生的是一个标量值，则该值就会被广播出去。

apply

一般性的“拆分-应用-合并”

tips.groupby('smoker').apply(top)相当于top函数在DataFrame的各个片段上调用，然后结果由pandas.concat组装到一起，并以分组名称进行了标记。，于是，最终结果就有了一个层次化索引，其内层索引值来自于原DataFrame.

禁止分组键：分组键会跟原始对象的索引共同构成结果对象中的层次化索引。将group_keys=False传入groupby即可禁止该效果。tips.groupby('smoker', group_keys=False).apply(top)

在GroupBy对象上调用describe相当于f = lambda x : x.describe(); grouped.apply(f).

数据汇总工具

透视表 pivot_table

根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域。

tips.pivot_table('tip_pct', index=['time', 'size', 'smoker'], 
columns='day', aggfunc='mean', fill_value=0)

参数名	说明
values	待聚合的列的名称。默认所有列
rows	用于分组的列名或者其他分组键，出现在结果透视表的行
cols	用于分组的列名或者其他分组键，出现在结果透视表的列
aggfunc	聚合函数或函数列表，默认“mean”。可以是任何对groupby有效的函数
fill_value	用于替换结果表中缺失值
margins	添加行/列小计和总计，默认为False

交叉表 crosstab

是一种用于计算分组频率的特殊透视表。

pd.crosstab([tips.time, tips.day], tips.smoker, margins=True)

以上这篇pandas数据分组和聚合操作方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

pandas数据分组和聚合操作方法

- Author -

Shingle_

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python获取beautifulphoto随机某图片代码实例

Dec 18 Python

Flask入门教程实例：搭建一个静态博客

Mar 27 Python

详解Django中Request对象的相关用法

Jul 17 Python

python numpy格式化打印的实例

May 14 Python

Python实现去除图片中指定颜色的像素功能示例

Apr 13 Python

Python 实例方法、类方法、静态方法的区别与作用

Aug 14 Python

python+selenium+chromedriver实现爬虫示例代码

Apr 10 Python

Python控制台实现交互式环境执行

Jun 09 Python

python json.dumps() json.dump()的区别详解

Jul 14 Python

python利用蒙版抠图(使用PIL.Image和cv2)输出透明背景图

Aug 04 Python

Python文件操作及内置函数flush原理解析

Oct 13 Python

python空元组在all中返回结果详解

Dec 15 Python

使用pandas对矢量化数据进行替换处理的方法

Apr 11 #Python

pandas数据框,统计某列数据对应的个数方法

Apr 11 #Python

pandas按若干个列的组合条件筛选数据的方法

Apr 11 #Python

pandas对指定列进行填充的方法

Apr 11 #Python

Python入门学习指南分享

Apr 11 #Python

对numpy和pandas中数组的合并和拆分详解

Apr 11 #Python

pandas 取出表中一列数据所有的值并转换为array类型的方法

Apr 11 #Python

You might like

测试php连接mysql是否成功的代码分享

2014/01/24 PHP

php将textarea数据提交到mysql出现很多空格的解决方法

2014/12/19 PHP

javascript+php实现根据用户时区显示当地时间的方法

2015/03/11 PHP

PHP抓取网页、解析HTML常用的方法总结

2015/07/01 PHP

php简单判断两个字符串是否相等的方法

2015/07/13 PHP

PHP入门教程之日期与时间操作技巧总结(格式化,验证,获取,转换,计算等)

2016/09/11 PHP

JavaScript修改css样式style

2008/04/15 Javascript

javascript实现的像java、c#之类的sleep暂停的函数代码

2010/03/04 Javascript

jQuery 文本框得失焦点的简单实例

2014/02/19 Javascript

jquery attr方法获取input的checked属性问题

2014/05/26 Javascript

jQuery弹出层插件Lightbox_me使用指南

2015/04/21 Javascript

JavaScript中使用指数方法Math.exp()的简介

2015/06/15 Javascript

Bootstrap下拉菜单效果实例代码分享

2016/06/30 Javascript

vue中引入第三方字体文件的方法示例

2018/12/17 Javascript

微信小程序开发问题之wx.previewImage

2018/12/25 Javascript

vue中使用带隐藏文本信息的图片、图片水印的方法

2020/04/24 Javascript

python 回调函数和回调方法的实现分析

2016/03/23 Python

Python编程argparse入门浅析

2018/02/07 Python

解决Python获取字典dict中不存在的值时出错问题

2018/10/17 Python

python3+PyQt5 实现Rich文本的行编辑方法

2019/06/17 Python

Python如何使用k-means方法将列表中相似的句子归类

2019/08/08 Python

python实现画出e指数函数的图像

2019/11/21 Python

python函数定义和调用过程详解

2020/02/09 Python

python matplotlib:plt.scatter() 大小和颜色参数详解

2020/04/14 Python

python爬虫实例之获取动漫截图

2020/05/31 Python

python代码能做成软件吗

2020/07/24 Python

Nebula美国官网：便携式投影仪

2019/03/15 全球购物

德国户外商店：eXXpozed

2020/07/25 全球购物

JSF的标签库有哪些

2012/04/27 面试题

大学毕业感言50字

2014/02/07 职场文书

大学新生军训自我鉴定范文

2014/09/13 职场文书

2015年社区统计工作总结

2015/04/21 职场文书

2015年公司保安年终工作总结

2015/05/14 职场文书

2015年计算机教师工作总结

2015/07/22 职场文书

怎样做好公众演讲能力？

2019/08/28 职场文书

浅谈由position属性引申的css进阶讨论

2021/05/25 HTML / CSS