编程 Python

python 利用panda 实现列联表(交叉表)

Posted in Python onFebruary 06, 2021

交叉表（cross-tabulation，简称crosstab）是⼀种⽤于计算分组频率的特殊透视表。

语法详解：

pd.crosstab(index, # 分组依据
   columns, # 列
   values=None, # 聚合计算的值
   rownames=None, # 列名称
   colnames=None, # 行名称
   aggfunc=None, # 聚合函数
   margins=False, # 总计行/列
   dropna=True, # 是否删除缺失值
   normalize=False # 
   )

1 crosstab() 实例1

1.1 读取数据

import os
import numpy as np
import pandas as pd

file_name = os.path.join(path, 'Excel_test.xls')
df = pd.read_excel(io=file_name, # 工作簿路径
     sheetname='透视表', # 工作表名称
     skiprows=1, # 要忽略的行数
     parse_cols='A:D' # 读入的列
     )
df

python 利用panda 实现列联表(交叉表)

1.2 pd.crosstab() 默认生成以行和列分类的频数表

pd.crosstab(df['客户名称'], df['产品类别'])

python 利用panda 实现列联表(交叉表)

1.3 设置跟多参数实现分类汇总

pd.crosstab(index=df['客户名称'],
   columns=df['产品类别'],
   values=df['销量'],
   aggfunc='sum',
   margins=True
   ).round(0).fillna(0).astype('int')

python 利用panda 实现列联表(交叉表)

注：因为交叉表示透视表的特例，所以交叉表可以用透视表的函数实现。又因为透视表可以用更 python 的方式 groupby-apply 实现，所以，交叉表完全可以用 groupby-apply 的方式实现。

2 用分类汇总的方法实现交叉表

df.groupby(['客户名称', '产品类别']).apply(sum)

python 利用panda 实现列联表(交叉表)

2.1 分类汇总、重新索引、设置数值格式综合应用

c_tbl = df.groupby(['客户名称', '产品类别']).apply(sum)['销量'].unstack()
c_tbl['总计'] = c_tbl.sum(axis=1) # 添加总计列
c_tbl.fillna(0).round(0).astype('int')

python 利用panda 实现列联表(交叉表)

软件信息：

python 利用panda 实现列联表(交叉表)

补充：使用python(pandas)将数据处理成交叉分组表

交叉分组表是汇总两种变量数据的方法, 在很多场景可以用到, 本文会介绍如何使用pandas将包含两个变量的数据集处理成交叉分组表.

环境

pandas

python 2.7

原理

用坐标轴来进行比喻, 其中一个变量作为x轴, 另一个作为y轴, 如果定位到数据则累加一, 将所有数据遍历一遍, 最后的坐标轴就是一张交叉分组表(使用坐标轴展示的数据一般是连续的, 交叉分组表的数据是离散的).

具体实现

示例数据:

quality price
0  bad 18
1  bad 17
2  great  52
3  good  28
4  excellent  88
5  great  63
6  bad 8
7  good  22
8  good  68
9  excellent  98
10 great  53
11 bad 13
12 great  62
13 good  48
14 excellent  78
15 great  63
16 good  37
17 great  69
18 good  28
19 excellent  81
20 great  43
21 good  32
22 great  62
23 good  28
24 excellent  82
25 great  53

代码:

import pandas as pd
  from pandas import DataFrame, Series
  #生成数据
  df = DataFrame([['bad', 18], ['bad', 17], ['great', 52], ['good', 28], ['excellent', 88], ['great', 63]
        , ['bad', 8], ['good', 22], ['good', 68], ['excellent', 98], ['great', 53]
        , ['bad', 13], ['great', 62], ['good', 48], ['excellent', 78], ['great', 63]
        , ['good', 37], ['great', 69], ['good', 28], ['excellent', 81], ['great', 43]
        , ['good', 32], ['great', 62], ['good', 28], ['excellent', 82], ['great', 53]], columns = ['quality', 'price'])
#广播使用的函数
def quality_cut(data):
  s = Series(pd.cut(data['price'], np.arange(0, 100, 10)))
  return pd.groupby(s, s).count()
#进行分组处理
df.groupby(df['quality']).apply(quality_cut)

结果:

python 利用panda 实现列联表(交叉表)

交叉分组

详细分析

从逻辑上来看, 为了达到对示例数据的交叉分组, 需要完成以下工作:

将数据以quality列进行分组.

将每个分组的数据分别进行cut, 以10为间隔.

将cut过的数据, 以cut的范围为列进行分组

将所有数据组合到一起, row为quality, columns为cut的范围

步骤1, pandasgroupby(...)接口, 会按照指定的列进行分组处理, 每一个分组, 存储相同类别的数据

<class 'pandas.core.frame.DataFrame'>
  quality price
0   bad   18
1   bad   17
6   bad   8
11   bad   13

而我们需要的, 只是price这列的数据, 所以单独将这列拿出来, 进行cut, 最后得到我们要的series(步骤2, 步骤3)

price
(0, 10]   1
(10, 20]  3
(20, 30]  0
(30, 40]  0
(40, 50]  0
(50, 60]  0
(60, 70]  0
(70, 80]  0
(80, 90]  0

使用pandas

apply()的广播特性, 每一个分组的数据都会经过上述几个步骤的处理, 最后与第一次分组row进行组合.

后记

估计能力有限, 这个问题想了很长时间, 没想到pandas这么可以这么方便达成交叉分组的效果. 思考的时候主要是卡在数据组合上, 当数据量很大时通过多个步骤进行数据组合, 肯定是低效而且错误的. 最后仔细研究了groupby, dataframe, series, dataframeIndex等数据模型, 使用广播特性用几句代码就完成了. 证明了pandas的高性能, 也提醒自己遇见问题一定要耐心分析。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持三水点靠木。如有错误或未考虑完全的地方，望不吝赐教。

python 利用panda 实现列联表(交叉表)

- Author -

赏尔

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python字符串编码识别模块chardet简单应用

Jun 15 Python

Python中对象迭代与反迭代的技巧总结

Sep 17 Python

python开发利器之ulipad的使用实践

Mar 16 Python

python下10个简单实例代码

Nov 15 Python

Sanic框架基于类的视图用法示例

Jul 18 Python

django+mysql的使用示例

Nov 23 Python

pyinstaller打包单个exe后无法执行错误的解决方法

Jun 21 Python

详解Python中pyautogui库的最全使用方法

Apr 01 Python

通过实例简单了解Python sys.argv[]使用方法

Aug 04 Python

PyCharm 2020.2.2 x64 下载并安装的详细教程

Oct 15 Python

如何通过python检查文件是否被占用

Dec 18 Python

python热力图实现的完整实例

Jun 25 Python

jupyter 添加不同内核的操作

Feb 06 #Python

解决import tensorflow导致jupyter内核死亡的问题

Feb 06 #Python

PyCharm常用配置和常用插件(小结)

Feb 06 #Python

完美解决torch.cuda.is_available()一直返回False的玄学方法

Feb 06 #Python

python反扒机制的5种解决方法

Feb 06 #Python

Python 爬取淘宝商品信息栏目的实现

Feb 06 #Python

解决pytorch下出现multi-target not supported at的一种可能原因

Feb 06 #Python

You might like

escape unescape的php下的实现方法

2007/04/27 PHP

php加密解密函数authcode的用法详细解析

2013/10/28 PHP

php stripslashes和addslashes的区别

2014/02/03 PHP

ThinkPHP行为扩展Behavior应用实例详解

2014/07/22 PHP

jquery与google map api结合使用控件,监听器

2010/03/04 Javascript

日期处理的js库（迷你版）--自建js库总结

2011/11/21 Javascript

showModalDialog在谷歌浏览器下会返回Null的解决方法

2013/11/27 Javascript

防止登录页面出现在frame中js代码

2014/07/22 Javascript

node.js中的fs.symlinkSync方法使用说明

2014/12/15 Javascript

Node.js 8 中的重要新特性

2017/06/28 Javascript

Vue动态组件实例解析

2017/08/20 Javascript

详解如何在项目中使用jest测试react native组件

2018/02/09 Javascript

vue init webpack myproject构建项目 ip不能访问的解决方法

2018/03/20 Javascript

使用vue-cli创建项目的图文教程(新手入门篇)

2018/05/02 Javascript

详解Node.js中path模块的resolve()和join()方法的区别

2018/10/29 Javascript

Vue 中如何正确引入第三方模块的方法步骤

2019/05/05 Javascript

Vue响应式原理Observer、Dep、Watcher理解

2019/06/06 Javascript

JS实现点击下拉列表文本框中出现对应的网址,点击跳转按钮实现跳转

2019/11/25 Javascript

vue实现图片按比例缩放问题操作

2020/08/11 Javascript

Python标准库之Sys模块使用详解

2015/05/23 Python

python/Matplotlib绘制复变函数图像教程

2019/11/21 Python

使用遗传算法求二元函数的最小值

2020/02/11 Python

基于python实现matlab filter函数过程详解

2020/06/08 Python

详解HTML5 录音的踩坑之旅

2017/12/26 HTML / CSS

DKNY品牌官网：纽约大都会时尚风格

2016/10/20 全球购物

汉米尔顿手表官网：Hamilton

2020/09/13 全球购物

What's the difference between an interface and abstract class? (接口与抽象类有什么区别)

2012/10/29 面试题

外语系大学生自荐信范文

2014/03/01 职场文书

喜之郎果冻广告词

2014/03/20 职场文书

幼儿园中班教师寄语

2014/04/03 职场文书

小学捐书活动总结

2014/07/05 职场文书

经济贸易系求职信

2014/08/04 职场文书

纪律教育月活动总结

2014/08/26 职场文书

学校政风行风整改方案

2014/10/25 职场文书

小学优秀教师材料

2014/12/15 职场文书

600字作文之感受大自然

2019/11/27 职场文书

python 利用panda 实现列联表(交叉表)

1 crosstab() 实例1

1.1 读取数据

1.2 pd.crosstab() 默认生成以行和列分类的频数表

1.3 设置跟多参数实现分类汇总

2 用分类汇总的方法实现 交叉表

2.1 分类汇总、重新索引、设置数值格式综合应用

环境

原理

具体实现

详细分析

后记

2 用分类汇总的方法实现交叉表