Python Pandas分组聚合的实现方法


Posted in Python onJuly 02, 2019

Pycharm 鼠标移动到函数上,CTRL+Q可以快速查看文档,CTR+P可以看基本的参数。

apply(),applymap()和map()

apply()和applymap()是DataFrame的函数,map()是Series的函数。

apply()的操作对象是DataFrame的一行或者一列数据,applymap()是DataFrame的每一个元素。map()也是Series中的每一个元素。

apply()对dataframe的内容进行批量处理, 这样要比循环来得快。如df.apply(func,axis=0,.....) func:定义的函数,axis=0时为对列操作,=1时为对行操作。

map()和python内建的没啥区别,如df['one'].map(sqrt)。

import numpy as np

from pandas import Series, DataFrame

 

frame = DataFrame(np.random.randn(4, 3),

         columns = list('bde'),

         index = ['Utah', 'Ohio', 'Texas', 'Oregon'])

print frame

print np.abs(frame)

print

 

f = lambda x: x.max() - x.min()

print frame.apply(f)

print frame.apply(f, axis = 1)

def f(x):

  return Series([x.min(), x.max()], index = ['min', 'max'])

print frame.apply(f)

print

 

print 'applymap和map'

_format = lambda x: '%.2f' % x

print frame.applymap(_format)

print frame['e'].map(_format)

Groupby

Groupby是Pandas中最为常用和有效的分组函数,有sum()、count()、mean()等统计函数。

groupby 方法返回的 DataFrameGroupBy 对象实际并不包含数据内容,它记录的是df['key1'] 的中间数据。当你对分组数据应用函数或其他聚合运算时,pandas 再依据 groupby 对象内记录的信息对 df 进行快速分块运算,并返回结果。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby(df['key1'])

print grouped.mean() 



df.groupby(lambda x:'even' if x%2==0 else 'odd').mean() #通过函数分组

聚合agg()

对于分组的某一列(行)或者多个列(行,axis=0/1),应用agg(func)可以对分组后的数据应用func函数。例如:用grouped['data1'].agg('mean')也是对分组后的'data1'列求均值。当然也可以同时作用于多个列(行)和使用多个函数上。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg('mean')

 

     data1   data2

key1          

a   0.749117 0.220249

b  -0.567971 -0.126922

apply()和agg()功能上差不多,apply()常用来处理不同分组的缺失数据的填充和top N的计算,会产生层级索引。

而agg可以同时传入多个函数,作用于不同的列。

df = DataFrame({'key1': ['a', 'a', 'b', 'b', 'a'],

        'key2': ['one', 'two', 'one', 'two', 'one'],

        'data1': np.random.randn(5),

        'data2': np.random.randn(5)})

grouped = df.groupby('key1')

print grouped.agg(['sum','mean'])
print grouped.apply(np.sum)  #apply的在这里同样适用,只是不能传入多个,这两个函数基本是可以通用的。

         data1               data2         
           sum      mean       sum      mean
key1                                       
a     2.780273  0.926758 -1.561696 -0.520565
b    -0.308320 -0.154160 -1.382162 -0.691081

         data1     data2 key1       key2
key1                                   
a     2.780273 -1.561696  aaa  onetwoone
b    -0.308320 -1.382162   bb     onetwo

apply和agg功能上基本是相近的,但是多个函数的时候还是agg比较方便。

apply本身的自由度很高,如果分组之后不做聚合操作紧紧是一些观察的时候,apply就有用武之地了。

print grouped.apply(lambda x: x.describe())

 

        data1   data2

key1             

a  count 3.000000 3.000000

   mean -0.887893 -1.042878

   std  0.777515 1.551220

   min  -1.429440 -2.277311

   25%  -1.333350 -1.913495

   50%  -1.237260 -1.549679

   75%  -0.617119 -0.425661

   max  0.003021 0.698357

b  count 2.000000 2.000000

   mean -0.078983 0.106752

   std  0.723929 0.064191

   min  -0.590879 0.061362

   25%  -0.334931 0.084057

   50%  -0.078983 0.106752

   75%  0.176964 0.129447

   max  0.432912 0.152142

此外apply还能改变返回数据的维度。

http://pandas.pydata.org/pandas-docs/stable/groupby.html

此外还有透视表pivot_table ,交叉表crosstab ,但是我没用过。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用range函数计算一组数和的方法
May 07 Python
全面理解Python中self的用法
Jun 04 Python
Python使用PyCrypto实现AES加密功能示例
May 22 Python
Python实现mysql数据库更新表数据接口的功能
Nov 19 Python
Numpy数组的保存与读取方法
Apr 04 Python
python将字典列表导出为Excel文件的方法
Sep 02 Python
Python下应用opencv 实现人脸检测功能
Oct 24 Python
使用Rasterio读取栅格数据的实例讲解
Nov 26 Python
Python脚本破解压缩文件口令实例教程(zipfile)
Jun 14 Python
python的链表基础知识点
Sep 13 Python
基于python实现坦克大战游戏
Oct 27 Python
pycharm 关闭search everywhere的解决操作
Jan 15 Python
使用Python做垃圾分类的原理及实例代码附源码
Jul 02 #Python
python flask框架实现重定向功能示例
Jul 02 #Python
python实现串口自动触发工作的示例
Jul 02 #Python
python常用函数与用法示例
Jul 02 #Python
pandas DataFrame 行列索引及值的获取的方法
Jul 02 #Python
python for和else语句趣谈
Jul 02 #Python
python交互模式下输入换行/输入多行命令的方法
Jul 02 #Python
You might like
php学习笔记 [预定义数组(超全局数组)]
2011/06/09 PHP
Codeigniter整合Tank Auth权限类库详解
2014/06/12 PHP
thinkphp下MySQL数据库读写分离代码剖析
2017/04/18 PHP
PHP根据树的前序遍历和中序遍历构造树并输出后序遍历的方法
2017/11/10 PHP
Jquery加载时从后台读取数据绑定到dropdownList实例
2013/06/09 Javascript
php析构函数的具体用法小结
2014/03/11 Javascript
chrome下jq width()方法取值为0的解决方法
2014/05/26 Javascript
Node.js 去掉种子(torrent)文件里的邪恶信息
2015/03/27 Javascript
jQuery实现弹窗下底部页面禁止滑动效果
2017/12/19 jQuery
C#程序员入门学习微信小程序的笔记
2019/03/05 Javascript
vue路由教程之静态路由
2019/09/03 Javascript
解决vue 子组件修改父组件传来的props值报错问题
2019/11/09 Javascript
微信小程序实现一个简单swiper代码实例
2019/12/30 Javascript
Js实现复选框的全选、全不选反选功能代码实例
2020/02/28 Javascript
[10:24]郎朗助力完美“圣”典,天籁交织奏响序曲
2016/12/18 DOTA
[03:00]2018完美盛典_最佳英雄奖
2018/12/17 DOTA
python模拟enum枚举类型的方法小结
2015/04/30 Python
人机交互程序 python实现人机对话
2017/11/14 Python
Django之Mode的外键自关联和引用未定义的Model方法
2018/12/15 Python
python启动应用程序和终止应用程序的方法
2019/06/28 Python
Python运行提示缺少模块问题解决方案
2020/04/02 Python
解决安装新版PyQt5、PyQT5-tool后打不开并Designer.exe提示no Qt platform plugin的问题
2020/04/24 Python
用CSS3写的模仿iPhone中的返回按钮
2015/04/04 HTML / CSS
英国最大的化装舞会服装网站:Fancydress.com
2017/08/15 全球购物
Foreo国际站:Foreo International
2018/10/29 全球购物
高中毕业的自我鉴定
2013/12/09 职场文书
大二学期个人自我评价
2014/01/13 职场文书
创业者是否需要商业计划书?
2014/02/07 职场文书
原料仓仓管员岗位职责
2014/07/08 职场文书
工作证明格式及范本
2014/09/12 职场文书
房屋出租协议书范本(标准版)
2014/09/24 职场文书
行政主管岗位职责范本
2015/04/09 职场文书
抢劫罪辩护词
2015/05/21 职场文书
父亲去世追悼词
2015/06/23 职场文书
《秋天的雨》教学反思
2016/02/19 职场文书
python文件目录操作之os模块
2021/05/08 Python