编程 Python

pandas分组聚合详解

Posted in Python onApril 10, 2020

一前言

pandas学到分组迭代，那么基础的pandas系列就学的差不多了，自我感觉不错，知识追寻者用pandas处理过一些数据，蛮好用的；

知识追寻者(Inheriting the spirit of open source, Spreading technology knowledge;)

二分组

2.1 数据准备

# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np

frame = pd.DataFrame({
 'user' : ['zszxz','craler','rose','zszxz','rose'],
 'hobby' : ['reading','running','hiking','reading','hiking'],
 'price' : np.random.randn(5),
 'number' : np.random.randn(5)
})
print(frame)

输出

     user    hobby     price    number
0   zszxz reading 0.275752 -0.075841
1 craler running -1.410682 0.259869
2    rose   hiking -0.353269 -0.392659
3   zszxz reading 1.484604 0.659274
4    rose   hiking -1.348315 2.492047

2.2 分组求均值

提取DataFrame中price 列，根据hobby列进行分组，最后对分好组的数据进行处理求均值；

# 是个生成器
group = frame['price'].groupby(frame['hobby'])
# 求均值
print(group.mean())

输出

hobby
hiking    -0.850792
reading    0.880178
running   -1.410682
Name: price, dtype: float64

Tip: 可以理解为根据爱好分组，查询价格；查询的列必须是数字，否则求均值时会报异常

如果是根据多列分组则在groupby后面使用列表指定，并且调用求均值函数；输出的值将是分组列，均值结果；

group = frame['price'].groupby([frame['hobby'],frame['user']])
print(group.mean())

输出

hobby    user
hiking   rose      0.063972
reading zszxz     0.393164
running craler   -1.395186
Name: price, dtype: float64

如果对整个DataFrame进行分组，则不再需要提取指定的列；

group = frame.groupby(frame['hobby'])
print(group.mean())

输出

hobby
hiking -0.116659 -0.316222
reading -0.651365 0.856299
running -0.282676 -0.585124

Tip: 求均值后，默认是对数字类型的数据进行分组求均值；非数字列自动忽略

2.3 分组求数量

分组求数量是统计分析中应用最为广泛的函数；如下示例中对DataFrame根据hobby分组，并且调用 size()函数统计个数；此方法常用的统计技巧；

group = frame.groupby(frame['hobby'])
print(group.size())

输出

hobby
hiking     2
reading    2
running    1
dtype: int64

2.4 分组迭代

当对groupby的列只有单个时（示例根据hobby进行分组），可以使用 key , value 形式对分组后的数据进行迭代，其中key 是分组的名称，value是分组的数据；

group = frame['price'].groupby(frame['hobby'])
for key , data in group:
 print(key)
 print(data)

输出

hiking
2   -0.669410
4   -0.246816
Name: price, dtype: float64
reading
0    1.362191
3   -0.052538
Name: price, dtype: float64
running
1    0.8963
Name: price, dtype: float64

当对多个列进行分组迭代时，有多少列则需要指定多少个key与其对应，key可以是任何不重复的变量名称

group = frame['price'].groupby([frame['hobby'],frame['user']])
for (key1, key2) , data in group:
 print(key1,key2)
 print(data)

输出

hiking rose
2   -0.019423
4   -2.642912
Name: price, dtype: float64
reading zszxz
0    0.405016
3    0.422182
Name: price, dtype: float64
running craler
1   -0.724752
Name: price, dtype: float64

2.5 分组数据转为字典

可以对分组后的数据转为字典；

dic = dict(list(frame.groupby(frame['hobby'])))
print(dic)

输出

{'hiking':    user   hobby     price    number
2 rose hiking 0.351633 0.523272
4 rose hiking 0.800039 0.331646,
'reading':     user    hobby     price    number
0 zszxz reading -0.074857 -0.928798
3 zszxz reading 0.666925 0.606706,
'running':      user    hobby     price    number
1 craler running -2.525633 0.895776}

获取key

print(dic['hiking'])

输出

user hobby price number
2 rose hiking 0.382225 -0.242055
4 rose hiking 1.055785 -0.328943

2.6 分组取值

对frame进行hobby分组，就算查询 price 的均值；返回Series；

mean = frame.groupby('hobby')['price'].mean()
print(type(mean))
print(mean)

输出

<class 'pandas.core.series.Series'>
hobby
hiking     0.973211
reading   -1.393790
running   -0.286236
Name: price, dtype: float64

Tip: frame.groupby(‘hobby')[‘price'] 与 frame[‘price'] .groupby(frame[‘hobby']) 相等

如果想要返回 DataFrame

mean = frame.groupby('hobby')[['price']].mean()
print(type(mean))
print(mean)

输出

<class 'pandas.core.frame.DataFrame'>
            price
hobby
hiking   0.973211
reading -1.393790
running -0.286236

2.5 Series作为分组

也可以传入Series作为DataFrame的分组列

ser = pd.Series(['hiking','reading','running'])
data = frame.groupby(ser).mean()
print(data)

输出

price number
hiking 1.233396 0.313839
reading -0.298887 0.982853
running -0.797734 -1.230811

Tip: 本质上都是数组，除了Series，还可以使用字典，列表，数组，函数作为分组列

2.6 通过索引层级分组

传入级别的名称即可实现层级化索引分组

# 创建2个列，并且指定名称
columns = pd.MultiIndex.from_arrays([['Python', 'Java', 'Python', 'Java', 'Python'],
          ['a', 'b', 'a', 'b', 'c']], names=['language', 'alpha'])
frame = pd.DataFrame(np.random.randint(1, 10, (5, 5)), columns=columns)
print(frame)

# 根据language进行分组
print(frame.groupby(level='language', axis=1).sum())
# 根据index进行分组
print(frame.groupby(level='alpha', axis=1).sum())

frame输出如下

language Python Java Python Java Python
alpha         a    b      a    b      c
0             9    9      7    4      5
1             3    4      7    6      6
2             6    6      3    9      1
3             1    1      8    5      2
4             6    5      9    5      4

language分组如下

language Java Python
0           13      21
1           10      16
2           15      10
3            6      11
4           10      19

alpha分组如下

alpha   a   b c
0      16 13 5
1      10 10 6
2       9 15 1
3       9   6 2
4      15 10 4

到此这篇关于pandas分组聚合详解的文章就介绍到这了,更多相关pandas 分组聚合内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

pandas分组聚合详解

- Author -

知识追寻者

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Ruby使用eventmachine为HTTP服务器添加文件下载功能

Apr 20 Python

python装饰器初探(推荐)

Jul 21 Python

django框架如何集成celery进行开发

May 24 Python

Python编程求质数实例代码

Jan 31 Python

pandas 把数据写入txt文件每行固定写入一定数量的值方法

Dec 28 Python

python去重,一个由dict组成的list的去重示例

Jan 21 Python

python assert的用处示例详解

Apr 01 Python

详解python路径拼接os.path.join()函数的用法

Oct 09 Python

Python读取表格类型文件代码实例

Feb 17 Python

PyCharm设置注释字体颜色以及是否倾斜的操作

Sep 16 Python

Selenium+BeautifulSoup+json获取Script标签内的json数据

Dec 07 Python

python引入其他文件夹下的py文件具体方法

May 23 Python

使用jupyter notebook直接打开.md格式的文件

Apr 10 #Python

Selenium使用Chrome模拟手机浏览器方法解析

Apr 10 #Python

Selenium基于PIL实现拼接滚动截图

Apr 10 #Python

在jupyter notebook 添加 conda 环境的操作详解

Apr 10 #Python

Selenium向iframe富文本框输入内容过程图解

Apr 10 #Python

jupyter notebook 多环境conda kernel配置方式

Apr 10 #Python

OpenCV 表盘指针自动读数的示例代码

Apr 10 #Python

You might like

博士208HAF收音机实习报告

2021/03/02 无线电

德生PL990的分析评价

2021/03/02 无线电

Php中文件下载功能实现超详细流程分析

2012/06/13 PHP

php生成静态文件的多种方法分享

2012/07/17 PHP

优化WordPress的Google字体以加速国内服务器上的运行

2015/11/24 PHP

简单谈谈PHP中的trait

2017/02/25 PHP

PHP7引入的"??"和"?:"的区别讲解

2019/04/08 PHP

jquery select选中的一个小问题

2009/10/11 Javascript

jquery实现奇偶行赋值不同css值

2012/02/17 Javascript

jquery解析xml字符串示例分享

2014/03/25 Javascript

JavaScript Serializer序列化时间处理示例

2014/07/31 Javascript

JavaScript控制table某列不显示的方法

2015/03/16 Javascript

基于jquery实现的树形菜单效果代码

2015/09/06 Javascript

javascript实现很浪漫的气泡冒出特效

2020/09/05 Javascript

JS实现部分HTML固定页面顶部随屏滚动效果

2015/12/24 Javascript

js获取当前日期时间及其它日期操作汇总

2016/03/08 Javascript

基于Bootstrap里面的Button dropdown打造自定义select

2016/05/30 Javascript

vue.js todolist实现代码

2017/10/29 Javascript

微信小程序使用map组件实现解析经纬度功能示例

2019/01/22 Javascript

在layui中使用form表单监听ajax异步验证注册的实例

2019/09/03 Javascript

JS 遍历 json 和 JQuery 遍历json操作完整示例

2019/11/11 jQuery

vue.js使用v-model实现父子组件间的双向通信示例

2020/02/05 Javascript

[02:46]2014DOTA2国际邀请赛选手为你解读比赛MVP充满梦想

2014/07/09 DOTA

Python中捕捉详细异常信息的代码示例

2014/09/18 Python

DJANGO-ALLAUTH社交用户系统的安装配置

2014/11/18 Python

Python实现微信公众平台自定义菜单实例

2015/03/20 Python

python 实现红包随机生成算法的简单实例

2017/01/04 Python

Python中格式化format()方法详解

2017/04/01 Python

Python对象中__del__方法起作用的条件详解

2018/11/01 Python

python--shutil移动文件到另一个路径的操作

2020/07/13 Python

phonegap常用事件总结(必看篇)

2017/03/31 HTML / CSS

如何写好自荐信

2014/04/07 职场文书

文明社区申报材料

2014/08/21 职场文书

小学美术教学反思

2016/02/17 职场文书

MySQL创建高性能索引的全步骤

2021/05/02 MySQL

常用的文件对应的MIME类型汇总

2022/04/26 HTML / CSS