编程 Python

详解PANDAS 数据合并与重塑（join/merge篇）

Posted in Python onJuly 09, 2019

在上一篇文章中，我整理了pandas在数据合并和重塑中常用到的concat方法的使用说明。在这里，将接着介绍pandas中也常常用到的join 和merge方法

merge

pandas的merge方法提供了一种类似于SQL的内存链接操作，官网文档提到它的性能会比其他开源语言的数据操作（例如R）要高效。

和SQL语句的对比可以看这里

merge的参数

on：列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。

left_on：左表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。

right_on：右表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。

left_index/ right_index: 如果是True的haunted以index作为对齐的key

how：数据融合的方法。

sort：根据dataframe合并的keys按字典顺序排序，默认是，如果置false可以提高表现。

merge的默认合并方法：
merge用于表内部基于 index-on-index 和 index-on-column(s) 的合并，但默认是基于index来合并。

1.1 复合key的合并方法

使用merge的时候可以选择多个key作为复合可以来对齐合并。

1.1.1 通过on指定数据合并对齐的列

In [41]: left = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
  ....:           'key2': ['K0', 'K1', 'K0', 'K1'],
  ....:           'A': ['A0', 'A1', 'A2', 'A3'],
  ....:           'B': ['B0', 'B1', 'B2', 'B3']})
  ....: 

In [42]: right = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
  ....:            'key2': ['K0', 'K0', 'K0', 'K0'],
  ....:            'C': ['C0', 'C1', 'C2', 'C3'],
  ....:            'D': ['D0', 'D1', 'D2', 'D3']})
  ....: 

In [43]: result = pd.merge(left, right, on=['key1', 'key2'])

详解PANDAS 数据合并与重塑（join/merge篇）

没有指定how的话默认使用inner方法。

how的方法有：

left

只保留左表的所有数据

In [44]: result = pd.merge(left, right, how='left', on=['key1', 'key2'])

详解PANDAS 数据合并与重塑（join/merge篇）

right

只保留右表的所有数据

In [45]: result = pd.merge(left, right, how='right', on=['key1', 'key2'])

详解PANDAS 数据合并与重塑（join/merge篇）

outer

保留两个表的所有信息

In [46]: result = pd.merge(left, right, how='outer', on=['key1', 'key2'])

详解PANDAS 数据合并与重塑（join/merge篇）

inner

只保留两个表中公共部分的信息

In [47]: result = pd.merge(left, right, how='inner', on=['key1', 'key2'])

详解PANDAS 数据合并与重塑（join/merge篇）

1.2 indicator

v0.17.0 版本的pandas开始还支持一个indicator的参数，如果置True的时候，输出结果会增加一列 ' _merge'。_merge列可以取三个值

left_only 只在左表中
right_only 只在右表中
both 两个表中都有

1.3 join方法

dataframe内置的join方法是一种快速合并的方法。它默认以index作为对齐的列。

1.3.1 how 参数

join中的how参数和merge中的how参数一样，用来指定表合并保留数据的规则。

具体可见前面的 how 说明。

1.3.2 on 参数

在实际应用中如果右表的索引值正是左表的某一列的值，这时可以通过将右表的索引和左表的列对齐合并这样灵活的方式进行合并。

ex 1

In [59]: left = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
  ....:           'B': ['B0', 'B1', 'B2', 'B3'],
  ....:           'key': ['K0', 'K1', 'K0', 'K1']})
  ....: 

In [60]: right = pd.DataFrame({'C': ['C0', 'C1'],
  ....:            'D': ['D0', 'D1']},
  ....:            index=['K0', 'K1'])
  ....: 

In [61]: result = left.join(right, on='key')

详解PANDAS 数据合并与重塑（join/merge篇）

1.3.3 suffix后缀参数

如果和表合并的过程中遇到有一列两个表都同名，但是值不同，合并的时候又都想保留下来，就可以用suffixes给每个表的重复列名增加后缀。

In [79]: result = pd.merge(left, right, on='k', suffixes=['_l', '_r'])

详解PANDAS 数据合并与重塑（join/merge篇）

*　另外还有lsuffix 和 rsuffix分别指定左表的后缀和右表的后缀。

1.4 组合多个dataframe

一次组合多个dataframe的时候可以传入元素为dataframe的列表或者tuple。一次join多个，一次解决多次烦恼~

In [83]: right2 = pd.DataFrame({'v': [7, 8, 9]}, index=['K1', 'K1', 'K2'])

In [84]: result = left.join([right, right2])

详解PANDAS 数据合并与重塑（join/merge篇）

1.5 更新表的nan值

1.5.1 combine_first

如果一个表的nan值，在另一个表相同位置（相同索引和相同列）可以找到，则可以通过combine_first来更新数据

1.5.2 update

如果要用一张表中的数据来更新另一张表的数据则可以用update来实现

1.5.3 combine_first 和 update 的区别

使用combine_first会只更新左表的nan值。而update则会更新左表的所有能在右表中找到的值（两表位置相对应）。

示例代码参考来源——官网

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

详解PANDAS 数据合并与重塑（join/merge篇）

- Author -

暴力组组长

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python threading多线程编程实例

Sep 18 Python

DataFrame中的object转换成float的方法

Apr 10 Python

基于Django与ajax之间的json传输方法

May 29 Python

Python对CSV、Excel、txt、dat文件的处理

Sep 18 Python

详解爬虫被封的问题

Apr 23 Python

浅析PyTorch中nn.Linear的使用

Aug 18 Python

python实现静态服务器

Sep 05 Python

浅谈Python3多线程之间的执行顺序问题

May 02 Python

python多进程下的生产者和消费者模型

May 07 Python

python 用pandas实现数据透视表功能

Dec 21 Python

Python Socket编程详解

Apr 25 Python

Python如何让字典保持有序排列

Apr 29 Python

python 返回一个列表中第二大的数方法

Jul 09 #Python

Mac在python3环境下安装virtualwrapper遇到的问题及解决方法

Jul 09 #Python

Python3中的最大整数和最大浮点数实例

Jul 09 #Python

详解pandas数据合并与重塑（pd.concat篇）

Jul 09 #Python

python自定义函数实现最大值的输出方法

Jul 09 #Python

mac系统下Redis安装和使用步骤详解

Jul 09 #Python

使用python将多个excel文件合并到同一个文件的方法

Jul 09 #Python

You might like

PHP手机号码归属地查询代码(API接口/mysql)

2012/09/04 PHP

PHP获取MySql新增记录ID值的3种方法

2014/06/24 PHP

PHP连接MYSQL数据库实例代码

2016/01/20 PHP

php mysql操作mysql_connect连接数据库实例详解

2016/12/26 PHP

php利用imagemagick实现复古老照片效果实例

2017/02/16 PHP

jquery获取input的value问题说明

2010/08/19 Javascript

Jquery带搜索框的下拉菜单

2013/05/06 Javascript

jQuery打印指定区域Html页面并自动分页

2014/07/04 Javascript

jQuery Html控件基本操作(日常收集整理)

2016/03/11 Javascript

浅谈js函数中的实例对象、类对象、局部变量(局部函数)

2016/11/20 Javascript

canvas时钟效果

2017/02/16 Javascript

js 作用域和变量详解

2017/02/16 Javascript

使用socket.io制做简易WEB聊天室

2018/01/02 Javascript

vue+axios+mock.js环境搭建的方法步骤

2018/08/28 Javascript

Vue 中对图片地址进行拼接的方法

2018/09/03 Javascript

vue项目使用$router.go(-1)返回时刷新原来的界面操作

2020/07/26 Javascript

Vue.js中使用Vuex实现组件数据共享案例

2020/07/31 Javascript

[42:23]完美世界DOTA2联赛PWL S3 Forest vs Rebirth 第二场 12.10

2020/12/13 DOTA

用python实现的可以拷贝或剪切一个文件列表中的所有文件

2009/04/30 Python

Python实现的数据结构与算法之队列详解

2015/04/22 Python

简单解析Django框架中的表单验证

2015/07/17 Python

浅谈Python单向链表的实现

2015/12/24 Python

mvc框架打造笔记之wsgi协议的优缺点以及接口实现

2018/08/01 Python

利用python画出AUC曲线的实例

2020/02/28 Python

Python利用matplotlib绘制散点图的新手教程

2020/11/05 Python

Python 数据分析之逐块读取文本的实现

2020/12/14 Python

去除python中的字符串空格的简单方法

2020/12/22 Python

Weblogic的布署方式

2013/08/23 面试题

写好自荐信的几个要点

2013/12/26 职场文书

施工安全生产承诺书

2014/05/23 职场文书

乔布斯斯坦福大学演讲稿

2014/05/23 职场文书

中学生爱国演讲稿

2014/09/05 职场文书

公司聚餐通知

2015/04/22 职场文书

天堂的孩子观后感

2015/06/11 职场文书

浅谈Vue的computed计算属性

2022/03/21 Vue.js

Python测试框架pytest高阶用法全面详解

2022/06/01 Python