编程 Python

Python Pandas模块实现数据的统计分析的方法

Posted in Python onJune 24, 2021

一、groupby函数

Python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块

import pandas as pd

首先导入我们所需要用到的数据集

customer = pd.read_csv("Churn_Modelling.csv")
marketing = pd.read_csv("DirectMarketing.csv")

我们先从一个简单的例子着手来看，

customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).mean()

Python Pandas模块实现数据的统计分析的方法

从上面的结果可以得知，在“法国”这一类当中的“女性(Female)”这一类的预估工资的平均值达到了99564欧元，“男性”达到了100174欧元

当然除了求平均数之外，我们还有其他的统计方式，比如“count”、“min”、“max”等等，例如下面的代码

customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).agg(['mean','count','max'])

Python Pandas模块实现数据的统计分析的方法

当然我们也可以对不同的列采取不同的统计方式方法，例如

customer[['Geography','EstimatedSalary','Balance']].groupby('Geography').agg({'EstimatedSalary':'sum', 'Balance':'mean'})

Python Pandas模块实现数据的统计分析的方法

我们对“EstimatedSalary”这一列做了加总的操作，而对“Balance”这一列做了求平均值的操作

二、Crosstab函数

在处理数据时，经常需要对数据分组计算均值或者计数，在Microsoft Excel中，可以通过透视表轻易实现简单的分组运算。而对于更加复杂的分组计算，“Pandas”模块中的“Crosstab”函数也能够帮助我们实现。

例如我们想要计算不同年龄阶段、不同性别的平均工资，同时保留一位小数，代码如下

pd.crosstab(index=marketing.Age, columns=marketing.Gender, values=marketing.Salary, aggfunc='mean').round(1)

Python Pandas模块实现数据的统计分析的方法

当然我们还可以用该函数来制作一个更加复杂一点的透视表，例如下面的代码

pd.crosstab(index=[marketing.Age, marketing.Married], columns=marketing.Gender,values=marketing.Salary, aggfunc='mean', margins=True).round(1)

Python Pandas模块实现数据的统计分析的方法

三、Pivot_table函数

和上面的“Cross_tab”函数的功能相类似，对于数据透视表而言，由于它的灵活性高，可以随意定制你的分析计算要求，而且操作性强，因此在实际的工作生活当中被广泛使用，

例如下面的代码，参数“margins”对应表格当中的“All”这一列

pd.pivot_table(data=marketing, index=['Age', 'Married'], columns='Gender', values='Salary', aggfunc='mean', margins=True).round(1)

Python Pandas模块实现数据的统计分析的方法

四、Sidetable函数

“Sidetable”可以被理解为是“Pandas”模块中的第三方的插件，它集合了制作透视表以及对数据集做统计分析等功能，让我们来实际操作一下吧

首先我们要下载安装这个“Sidetable”组件，

pip install sidetable

五、Freq函数

首先介绍的是“Sidetable”插件当中的“Freq”函数，里面包含了离散值每个类型的数量，其中是有百分比形式来呈现以及数字的形式来呈现，还有离散值每个类型的累加总和的呈现，具体大家看下面的代码和例子

import sidetable
marketing.stb.freq(['Age'])

Python Pandas模块实现数据的统计分析的方法

“Age”这一列有三大类分别是“Middle”、“Young”以及“Old”的数据，例如我们看到表格当中的“Middle”这一列的数量有508个，占比有50.8%

marketing.stb.freq(['Age'], value='AmountSpent')

Python Pandas模块实现数据的统计分析的方法

例如上面的代码，显示的则是比方说当“Age”是“Middle”的时候，也就是中年群体，“AmountSpent”的总和，也就是花费的总和是762859元

六、Missing函数

“Sidetable”函数当中的“Missing”方法顾名思义就是返回缺失值的数量以及百分比，例如下面的代码,“History”这一列的缺失值占到了30.3%

marketing.stb.missing()

Python Pandas模块实现数据的统计分析的方法

七、Counts函数

“Sidetable”函数当中的“counts”方法用来计算各个类型的离散值出现的数量，具体看下面的例子

marketing.stb.counts()

Python Pandas模块实现数据的统计分析的方法

例如“Gender”这一列中，总共有两个，也就是“unique”这一列所代表的值，其中“Female”占到的比重更大，有506个，而“Male”占到的比重更小一些，有494个

到此这篇关于Python Pandas模块实现数据的统计分析的方法的文章就介绍到这了,更多相关Pandas模块实现数据的统计分析内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python Pandas模块实现数据的统计分析的方法

- Author -

夏俊欣

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python编写脚本获取手机当前应用apk的信息

Jul 21 Python

python 拼接文件路径的方法

Oct 23 Python

python pygame模块编写飞机大战

Nov 20 Python

Python3实现腾讯云OCR识别

Nov 27 Python

python配置grpc环境

Jan 01 Python

Python、 Pycharm、Django安装详细教程(图文)

Apr 12 Python

python3 打印输出字典中特定的某个key的方法示例

Jul 06 Python

Python 3.6打包成EXE可执行程序的实现

Oct 18 Python

Python求正态分布曲线下面积实例

Nov 20 Python

python 成功引入包但无法正常调用的解决

Mar 09 Python

python 子类调用父类的构造函数实例

Mar 12 Python

OpenCV-Python实现怀旧滤镜与连环画滤镜

Jun 09 Python

FP-growth算法发现频繁项集——发现频繁项集

能让Python提速超40倍的神器Cython详解

Jun 24 #Python

FP-growth算法发现频繁项集——构建FP树

python ansible自动化运维工具执行流程

关于python中readlines函数的参数hint的相关知识总结

详解Python为什么不用设计模式

linux中nohup和后台运行进程查看及终止

Jun 24 #Python

You might like

PHP include任意文件或URL介绍

2014/04/29 PHP

bootstrap data与jquery .data

2014/07/07 Javascript

jQuery提交多个表单的小技巧

2014/07/27 Javascript

Nodejs关于gzip/deflate压缩详解

2015/03/04 NodeJs

js实现仿微博滚动显示信息的效果

2015/12/21 Javascript

IE和Firefox之间在JavaScript语法上的差异

2016/04/22 Javascript

JavaScript和jquery获取父级元素、子级元素、兄弟元素的方法

2016/06/05 Javascript

Node.js 文件夹目录结构创建实例代码

2016/07/08 Javascript

jQuery焦点图轮播效果实现方法

2016/12/19 Javascript

利用Javascript裁剪图片并存储的简单实现

2017/03/13 Javascript

vue.js中引入vuex储存接口数据及调用的详细流程

2017/12/14 Javascript

使用 Node.js 开发资讯爬虫流程

2018/01/07 Javascript

jQuery实现上下滚动公告栏详细代码

2018/11/21 jQuery

Node.js的进程管理的深入理解

2019/01/09 Javascript

详解基于 Node.js 的轻量级云函数功能实现

2019/07/08 Javascript

详解vue-cli项目开发/生产环境代理实现跨域请求

2019/07/23 Javascript

Vuex实现购物车小功能

2020/08/17 Javascript

js实现扫雷源代码

2020/11/27 Javascript

[01:29:42]Liquid vs VP Supermajor决赛 BO 第一场 6.10

2018/07/05 DOTA

python备份文件的脚本

2008/08/11 Python

python发送伪造的arp请求

2014/01/09 Python

详解Django中的form库的使用

2015/07/18 Python

flask + pymysql操作Mysql数据库的实例

2017/11/13 Python

使用python来调用CAN通讯的DLL实现方法

2019/07/03 Python

使用Python打造一款间谍程序的流程分析

2020/02/21 Python

Python爬取豆瓣数据实现过程解析

2020/10/27 Python

整理HTML5的一些新特性与Canvas的常用属性

2016/01/29 HTML / CSS

船餐厅和泰晤士河餐饮游轮：Bateaux London

2018/03/19 全球购物

销售会计工作职责

2013/12/02 职场文书

酒店门卫岗位职责

2013/12/29 职场文书

社区工作感言

2014/02/21 职场文书

库房保管员岗位职责

2014/04/07 职场文书

幼儿园师德师风学习材料

2014/05/29 职场文书

办公室主任四风问题对照检查材料思想汇报

2014/09/28 职场文书

班主任师德师风自我剖析材料

2014/10/02 职场文书

2014年林业工作总结

2014/12/05 职场文书