编程 Python

pandas之分组groupby()的使用整理与总结

Posted in Python onJune 18, 2020

前言

在使用pandas的时候，有些场景需要对数据内部进行分组处理，如一组全校学生成绩的数据，我们想通过班级进行分组，或者再对班级分组后的性别进行分组来进行分析，这时通过pandas下的groupby()函数就可以解决。在使用pandas进行数据分析时，groupby()函数将会是一个数据分析辅助的利器。

groupby的作用可以参考超好用的 pandas 之 groupby 中作者的插图进行直观的理解：

准备

读入的数据是一段学生信息的数据，下面将以这个数据为例进行整理grouby()函数的使用：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.read_csv('./data.csv')
print(df)

Name Gender Age Score
0   Alen  Male  18   80
1   Bob  Male  19   90
2   Cidy Female  18   93
3  Daniel  Male  20   87
4  Ellen Female  17   96
5 Frankie  Male  21  100
6   Gate  Male  20   88
7   Hebe Female  22   98

基本操作

在进行对groupby函数进行学习之前，首先需要明确的是，通过对DataFrame对象调用groupby()函数返回的结果是一个DataFrameGroupBy对象，而不是一个DataFrame或者Series对象，所以，它们中的一些方法或者函数是无法直接调用的，需要按照GroupBy对象中具有的函数和方法进行调用。

grouped = df.groupby('Gender')
print(type(grouped))
print(grouped)

<class 'pandas.core.groupby.groupby.DataFrameGroupBy'>

分组时，不仅仅可以指定一个列名，也可以指定多个列名：

grouped = df.groupby('Gender')
grouped_muti = df.groupby(['Gender', 'Age'])

print(grouped.size())
print(grouped_muti.size())

Gender
Female  3
Male   5
dtype: int64

Gender Age
Female 17   1
    18   1
    22   1
Male  18   1
    19   1
    20   2
    21   1
dtype: int64

指定多个列名个单个列名后的区别在于，分组的主键或者索引（indice）将一个是单个主键，另一个则是一个元组的形式：

print(grouped.get_group('Female'))
print(grouped_muti.get_group(('Female', 17)))

  Name Gender Age Score
2  Cidy Female  18   93
4 Ellen Female  17   96
7  Hebe Female  22   98
  Name Gender Age Score
4 Ellen Female  17   96

通过调用get_group()函数可以返回一个按照分组得到的DataFrame对象，所以接下来的使用就可以按照·DataFrame·对象来使用。如果想让这个DataFrame对象的索引重新定义可以通过：

df = grouped.get_group('Female').reset_index()
print(df)

  index  Name Gender Age Score
0   2  Cidy Female  18   93
1   4 Ellen Female  17   96
2   7  Hebe Female  22   98

这里可以总结一下，由于通过groupby()函数分组得到的是一个DataFrameGroupBy对象，而通过对这个对象调用get_group()，返回的则是一个·DataFrame·对象，所以可以将DataFrameGroupBy对象理解为是多个DataFrame组成的。

而没有调用get_group()函数之前，此时的数据结构任然是DataFrameGroupBy，此时进行对DataFrameGroupBy按照列名进行索引，同理就可以得到SeriesGroupBy对象，取多个列名，则得到的任然是DataFrameGroupBy对象，这里可以类比DataFrame和Series的关系。

按照上面的思路理解后，再调用get_group()函数后得到的DataFrame对象按照列名进行索引实际上就是得到了Series的对象，下面的操作就可以按照Series对象中的函数行了。

在没有进行调用get_group()，也就是没有取出特定某一组数据之前，此时的数据结构任然是DataFrameGroupBy，其中也有很多函数和方法可以调用，如max()、count()、std()等，返回的结果是一个DataFrame对象。

print(grouped.count())
print(grouped.max()[['Age', 'Score']])
print(grouped.mean()[['Age', 'Score']])

    Name Age Score
Gender         
Female   3  3   3
Male    5  5   5
    Age Score
Gender      
Female  22   98
Male   21  100
     Age   Score
Gender         
Female 19.0 95.666667
Male  19.6 89.000000

如果其中的函数无法满足你的需求，你也可以选择使用聚合函数aggregate，传递numpy或者自定义的函数，前提是返回一个聚合值。

def getSum(data):
  total = 0
  for d in data:
    total+=d
  return total


print(grouped.aggregate(np.median))
print(grouped.aggregate({'Age':np.median, 'Score':np.sum}))
print(grouped.aggregate({'Age':getSum}))

aggregate函数不同于apply，前者是对所有的数值进行一个聚合的操作，而后者则是对每个数值进行单独的一个操作：

def addOne(data):
  return data + 1

df['Age'] = df['Age'].apply(addOne)
df['Age'] = df['Age'].apply(int)

可视化操作

对组内的数据绘制概率密度分布：

grouped['Age'].plot(kind='kde', legend=True)
plt.show()

pandas之分组groupby()的使用整理与总结

由于grouped['Age']是一个SeriesGroupby对象, 顾名思义, 就是每一个组都有一个Series. 所以直接plot相当于遍历了每一个组内的Age数据。

REF

groupby官方文档
超好用的 pandas 之 groupby

到此这篇关于pandas之分组groupby()的使用整理与总结的文章就介绍到这了,更多相关pandas groupby()分组内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

pandas之分组groupby()的使用整理与总结

- Author -

敲代码的quant

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python实现根据ip地址反向查找主机名称的方法

Apr 29 Python

Python3实现从指定路径查找文件的方法

May 22 Python

python生成IP段的方法

Jul 07 Python

Python编程中对文件和存储器的读写示例

Jan 25 Python

Flask框架中密码的加盐哈希加密和验证功能的用法详解

Jun 07 Python

基于Python实现的ID3决策树功能示例

Jan 02 Python

Python multiprocessing多进程原理与应用示例

Feb 28 Python

python实现AES加密和解密

Mar 27 Python

Python使用pyautocad+openpyxl处理cad文件示例

Jul 11 Python

Python读取xlsx数据生成图标代码实例

Aug 12 Python

pycharm 多行批量缩进和反向缩进快捷键介绍

Jan 15 Python

pytorch fine-tune 预训练的模型操作

Jun 03 Python

解决Keyerror ''acc'' KeyError: ''val_acc''问题

Jun 18 #Python

Python调用shell cmd方法代码示例解析

Jun 18 #Python

Python如何自动获取目标网站最新通知

Jun 18 #Python

浅谈keras使用中val_acc和acc值不同步的思考

Jun 18 #Python

python实现在线翻译

Jun 18 #Python

Python函数的迭代器与生成器的示例代码

Jun 18 #Python

使用python实现名片管理系统

Jun 18 #Python

You might like

锁定年轻人的双倍活力星巴克推出星倍醇即饮浓咖啡

2021/03/03 咖啡文化

php动态函数调用方法

2015/05/21 PHP

浅谈PHP eval()函数定义和用法

2016/06/21 PHP

PHP使用mysqli同时执行多条sql查询语句的实例

2019/03/22 PHP

静态页面下用javascript操作ACCESS数据库(读增改删)的代码

2007/05/14 Javascript

使用CSS3的scale实现网页整体缩放

2014/03/18 Javascript

javascript怎么禁用浏览器后退按钮

2014/03/27 Javascript

JavaScript获取图片像素颜色并转换为box-shadow显示

2016/03/11 Javascript

使用Bootstrap框架制作查询页面的界面实例代码

2016/05/27 Javascript

浅谈js数组和splice的用法

2016/12/04 Javascript

vue2.0 自定义饼状图 (Echarts)组件的方法

2018/03/02 Javascript

改变vue请求过来的数据中的某一项值的方法(详解)

2018/03/08 Javascript

Vue.js中使用iView日期选择器并设置开始时间结束时间校验功能

2018/08/12 Javascript

jQuery仿移动端支付宝键盘的实现代码

2018/08/15 jQuery

angular8和ngrx8结合使用的步骤介绍

2019/12/01 Javascript

Python的Flask框架中实现分页功能的教程

2015/04/20 Python

Python数据类型详解（一）字符串

2016/05/08 Python

python使用 HTMLTestRunner.py生成测试报告

2017/10/20 Python

python面试题小结附答案实例代码

2019/04/11 Python

PyQt5图形界面播放音乐的实例

2019/06/17 Python

基于python实现检索标记敏感词并输出

2020/05/07 Python

IE9下html5初试小刀

2010/09/21 HTML / CSS

德国、奥地利和瑞士最大的旅行和度假门户网站：HolidayCheck

2019/11/14 全球购物

一些Unix笔试题和面试题

2012/09/25 面试题

土木工程建筑专业毕业生求职信

2013/10/21 职场文书

幼儿园师德师风学习材料

2014/05/29 职场文书

创优争先心得体会

2014/09/11 职场文书

孝老爱亲事迹材料

2014/12/24 职场文书

司机岗位职责范本

2015/04/10 职场文书

新闻稿标题

2015/07/18 职场文书

品德与社会教学反思

2016/02/24 职场文书

2016年“12.3”国际残疾人日活动总结

2016/04/01 职场文书

职场新人知识：如何制定一份合理的工作计划？

2019/09/11 职场文书

SQLServer 日期函数大全(小结)

2021/04/08 SQL Server

python字符串拼接.join()和拆分.split()详解

2021/11/23 Python

MyBatis在注解上使用动态SQL方式(@select使用if)

2022/07/07 Java/Android