python 利用panda 实现列联表(交叉表)


Posted in Python onFebruary 06, 2021

交叉表(cross-tabulation,简称crosstab)是⼀种⽤于计算分组频率的特殊透视表。

语法详解:

pd.crosstab(index, # 分组依据
   columns, # 列
   values=None, # 聚合计算的值
   rownames=None, # 列名称
   colnames=None, # 行名称
   aggfunc=None, # 聚合函数
   margins=False, # 总计行/列
   dropna=True, # 是否删除缺失值
   normalize=False # 
   )

1 crosstab() 实例1

1.1 读取数据

import os
import numpy as np
import pandas as pd

file_name = os.path.join(path, 'Excel_test.xls')
df = pd.read_excel(io=file_name, # 工作簿路径
     sheetname='透视表', # 工作表名称
     skiprows=1, # 要忽略的行数
     parse_cols='A:D' # 读入的列
     )
df

python 利用panda 实现列联表(交叉表)

1.2 pd.crosstab() 默认生成以行和列分类的频数表

pd.crosstab(df['客户名称'], df['产品类别'])

python 利用panda 实现列联表(交叉表)

1.3 设置跟多参数实现分类汇总

pd.crosstab(index=df['客户名称'],
   columns=df['产品类别'],
   values=df['销量'],
   aggfunc='sum',
   margins=True
   ).round(0).fillna(0).astype('int')

python 利用panda 实现列联表(交叉表)

注:因为交叉表示透视表的特例,所以交叉表可以用透视表的函数实现。又因为透视表可以用更 python 的方式 groupby-apply 实现,所以,交叉表完全可以用 groupby-apply 的方式实现。

2 用分类汇总的方法实现 交叉表

df.groupby(['客户名称', '产品类别']).apply(sum)

python 利用panda 实现列联表(交叉表)

2.1 分类汇总、重新索引、设置数值格式综合应用

c_tbl = df.groupby(['客户名称', '产品类别']).apply(sum)['销量'].unstack()
c_tbl['总计'] = c_tbl.sum(axis=1) # 添加总计列
c_tbl.fillna(0).round(0).astype('int')

python 利用panda 实现列联表(交叉表)

软件信息:

python 利用panda 实现列联表(交叉表)

补充:使用python(pandas)将数据处理成交叉分组表

交叉分组表是汇总两种变量数据的方法, 在很多场景可以用到, 本文会介绍如何使用pandas将包含两个变量的数据集处理成交叉分组表.

环境

pandas

python 2.7

原理

用坐标轴来进行比喻, 其中一个变量作为x轴, 另一个作为y轴, 如果定位到数据则累加一, 将所有数据遍历一遍, 最后的坐标轴就是一张交叉分组表(使用坐标轴展示的数据一般是连续的, 交叉分组表的数据是离散的).

具体实现

示例数据:

quality price
0  bad 18
1  bad 17
2  great  52
3  good  28
4  excellent  88
5  great  63
6  bad 8
7  good  22
8  good  68
9  excellent  98
10 great  53
11 bad 13
12 great  62
13 good  48
14 excellent  78
15 great  63
16 good  37
17 great  69
18 good  28
19 excellent  81
20 great  43
21 good  32
22 great  62
23 good  28
24 excellent  82
25 great  53

代码:

import pandas as pd
  from pandas import DataFrame, Series
  #生成数据
  df = DataFrame([['bad', 18], ['bad', 17], ['great', 52], ['good', 28], ['excellent', 88], ['great', 63]
        , ['bad', 8], ['good', 22], ['good', 68], ['excellent', 98], ['great', 53]
        , ['bad', 13], ['great', 62], ['good', 48], ['excellent', 78], ['great', 63]
        , ['good', 37], ['great', 69], ['good', 28], ['excellent', 81], ['great', 43]
        , ['good', 32], ['great', 62], ['good', 28], ['excellent', 82], ['great', 53]], columns = ['quality', 'price'])
#广播使用的函数
def quality_cut(data):
  s = Series(pd.cut(data['price'], np.arange(0, 100, 10)))
  return pd.groupby(s, s).count()
#进行分组处理
df.groupby(df['quality']).apply(quality_cut)

结果:

python 利用panda 实现列联表(交叉表)

交叉分组

详细分析

从逻辑上来看, 为了达到对示例数据的交叉分组, 需要完成以下工作:

将数据以quality列进行分组.

将每个分组的数据分别进行cut, 以10为间隔.

将cut过的数据, 以cut的范围为列进行分组

将所有数据组合到一起, row为quality, columns为cut的范围

步骤1, pandasgroupby(...)接口, 会按照指定的列进行分组处理, 每一个分组, 存储相同类别的数据

<class 'pandas.core.frame.DataFrame'>
  quality price
0   bad   18
1   bad   17
6   bad   8
11   bad   13

而我们需要的, 只是price这列的数据, 所以单独将这列拿出来, 进行cut, 最后得到我们要的series(步骤2, 步骤3)

price
(0, 10]   1
(10, 20]  3
(20, 30]  0
(30, 40]  0
(40, 50]  0
(50, 60]  0
(60, 70]  0
(70, 80]  0
(80, 90]  0

使用pandas

apply()的广播特性, 每一个分组的数据都会经过上述几个步骤的处理, 最后与第一次分组row进行组合.

后记

估计能力有限, 这个问题想了很长时间, 没想到pandas这么可以这么方便达成交叉分组的效果. 思考的时候主要是卡在数据组合上, 当数据量很大时通过多个步骤进行数据组合, 肯定是低效而且错误的. 最后仔细研究了groupby, dataframe, series, dataframeIndex等数据模型, 使用广播特性用几句代码就完成了. 证明了pandas的高性能, 也提醒自己遇见问题一定要耐心分析。

以上为个人经验,希望能给大家一个参考,也希望大家多多支持三水点靠木。如有错误或未考虑完全的地方,望不吝赐教。

Python 相关文章推荐
Python简单获取自身外网IP的方法
Sep 18 Python
Python安装官方whl包和tar.gz包的方法(推荐)
Jun 04 Python
教你用Python创建微信聊天机器人
Mar 31 Python
python使用筛选法计算小于给定数字的所有素数
Mar 19 Python
python组合无重复三位数的实例
Nov 13 Python
python实现五子棋小程序
Jun 18 Python
Python matplotlib绘制饼状图功能示例
Sep 10 Python
Pytorch实现各种2d卷积示例
Dec 30 Python
Python抓包程序mitmproxy安装和使用过程图解
Mar 02 Python
python 的numpy库中的mean()函数用法介绍
Mar 03 Python
python继承threading.Thread实现有返回值的子类实例
May 02 Python
python代码实现备忘录案例讲解
Jul 26 Python
jupyter 添加不同内核的操作
Feb 06 #Python
解决import tensorflow导致jupyter内核死亡的问题
Feb 06 #Python
PyCharm常用配置和常用插件(小结)
Feb 06 #Python
完美解决torch.cuda.is_available()一直返回False的玄学方法
Feb 06 #Python
python反扒机制的5种解决方法
Feb 06 #Python
Python 爬取淘宝商品信息栏目的实现
Feb 06 #Python
解决pytorch下出现multi-target not supported at的一种可能原因
Feb 06 #Python
You might like
咖啡店都有些什么常规豆子呢?有什么风味在里面
2021/03/04 咖啡文化
php 面试碰到过的问题 在此做下记录
2011/06/09 PHP
PHP中的命名空间相关概念浅析
2015/01/22 PHP
不常用但很实用的PHP预定义变量分析
2019/06/25 PHP
ThinkPHP 5.x远程命令执行漏洞复现
2019/09/23 PHP
javascript字符串拼接的效率问题
2010/12/25 Javascript
修改file按钮的默认样式实现代码
2013/04/23 Javascript
jquery iframe操作详细解析
2013/11/20 Javascript
第一次接触神奇的Bootstrap网格系统
2016/07/27 Javascript
JS在Chrome浏览器中showModalDialog函数返回值为undefined的解决方法
2016/08/03 Javascript
vue 如何从单页应用改造成多页应用
2020/10/23 Javascript
解决vue页面刷新,数据丢失的问题
2020/11/24 Vue.js
vue实现可移动的悬浮按钮
2021/03/04 Vue.js
[06:33]DOTA2亚洲邀请赛小组赛第二日 TOP10精彩集锦
2015/01/31 DOTA
[45:15]Optic vs VP 2018国际邀请赛淘汰赛BO3 第一场 8.24
2018/08/25 DOTA
Python中的类与对象之描述符详解
2015/03/27 Python
python实现识别相似图片小结
2016/02/22 Python
Python脚本获取操作系统版本信息
2016/12/17 Python
Python reduce()函数的用法小结
2017/11/15 Python
Python 使用PIL numpy 实现拼接图片的示例
2018/05/08 Python
在双python下设置python3为默认的方法
2018/10/31 Python
Python安装Flask环境及简单应用示例
2019/05/03 Python
一篇文章彻底搞懂Python中可迭代(Iterable)、迭代器(Iterator)与生成器(Generator)的概念
2019/05/13 Python
PyQt5连接MySQL及QMYSQL driver not loaded错误解决
2020/04/29 Python
python读取图片颜色值并生成excel像素画的方法实例
2021/02/19 Python
日本面向世界,国际级的免税在线购物商城:DOKODEMO
2017/02/01 全球购物
PacSun官网:加州生活方式服装、鞋子和配饰
2018/03/10 全球购物
英国门销售网站:Green Tree Doors
2020/01/07 全球购物
用Java语言将一个键盘输入的数字转化成中文输出
2013/01/25 面试题
环境卫生标语
2014/06/09 职场文书
组工干部演讲稿
2014/09/02 职场文书
建筑工地文明标语
2014/10/09 职场文书
2014年效能监察工作总结
2014/11/21 职场文书
小兵张嘎观后感
2015/06/03 职场文书
毕业欢送晚会主持词
2019/06/25 职场文书
windows安装python超详细图文教程
2021/05/21 Python