pandas dataframe的合并实现(append, merge, concat)


Posted in Python onJune 24, 2019

创建2个DataFrame:

>>> df1 = pd.DataFrame(np.ones((4, 4))*1, columns=list('DCBA'), index=list('4321'))
>>> df2 = pd.DataFrame(np.ones((4, 4))*2, columns=list('FEDC'), index=list('6543'))
>>> df3 = pd.DataFrame(np.ones((4, 4))*3, columns=list('FEBA'), index=list('6521'))
>>> df1
  D  C  B  A
4 1.0 1.0 1.0 1.0
3 1.0 1.0 1.0 1.0
2 1.0 1.0 1.0 1.0
1 1.0 1.0 1.0 1.0
>>> df2
  F  E  D  C
6 2.0 2.0 2.0 2.0
5 2.0 2.0 2.0 2.0
4 2.0 2.0 2.0 2.0
3 2.0 2.0 2.0 2.0
>>> df3
  F  E  B  A
6 3.0 3.0 3.0 3.0
5 3.0 3.0 3.0 3.0
2 3.0 3.0 3.0 3.0
1 3.0 3.0 3.0 3.0

1,concat

pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
     keys=None, levels=None, names=None, verify_integrity=False,
     copy=True)

 示例:

>>> pd.concat([df1, df2])
  A  B  C  D  E  F
4 1.0 1.0 1.0 1.0 NaN NaN
3 1.0 1.0 1.0 1.0 NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN
6 NaN NaN 2.0 2.0 2.0 2.0
5 NaN NaN 2.0 2.0 2.0 2.0
4 NaN NaN 2.0 2.0 2.0 2.0
3 NaN NaN 2.0 2.0 2.0 2.0

1.1,axis

默认值:axis=0
axis=0:竖方向(index)合并,合并方向index作列表相加,非合并方向columns取并集
axis=1:横方向(columns)合并,合并方向columns作列表相加,非合并方向index取并集
axis=0:

>>> pd.concat([df1, df2], axis=0)
  A  B  C  D  E  F
4 1.0 1.0 1.0 1.0 NaN NaN
3 1.0 1.0 1.0 1.0 NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN
6 NaN NaN 2.0 2.0 2.0 2.0
5 NaN NaN 2.0 2.0 2.0 2.0
4 NaN NaN 2.0 2.0 2.0 2.0
3 NaN NaN 2.0 2.0 2.0 2.0 

axis=1:

>>> pd.concat([df1, df2], axis=1)
  D  C  B  A  F  E  D  C
1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
5 NaN NaN NaN NaN 2.0 2.0 2.0 2.0
6 NaN NaN NaN NaN 2.0 2.0 2.0 2.0

备注:原df中,取并集的行/列名称不能有重复项,即axis=0时columns不能有重复项,axis=1时index不能有重复项:

>>> df1.columns = list('DDBA')
>>> pd.concat([df1, df2], axis=0)
ValueError: Plan shapes are not aligned

1.2,join

默认值:join=‘outer'
非合并方向的行/列名称:取交集(inner),取并集(outer)。
axis=0时join='inner',columns取交集:

>>> pd.concat([df1, df2], axis=0, join='inner')
  D  C
4 1.0 1.0
3 1.0 1.0
2 1.0 1.0
1 1.0 1.0
6 2.0 2.0
5 2.0 2.0
4 2.0 2.0
3 2.0 2.0

axis=1时join='inner',index取交集:

>>> pd.concat([df1, df2], axis=1, join='inner')
  D  C  B  A  F  E  D  C
4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0

1.3,join_axes

默认值:join_axes=None,取并集
合并后,可以设置非合并方向的行/列名称,使用某个df的行/列名称
axis=0时join_axes=[df1.columns],合并后columns使用df1的:

>>> pd.concat([df1, df2], axis=0, join_axes=[df1.columns])
  D  C  B  A
4 1.0 1.0 1.0 1.0
3 1.0 1.0 1.0 1.0
2 1.0 1.0 1.0 1.0
1 1.0 1.0 1.0 1.0
6 2.0 2.0 NaN NaN
5 2.0 2.0 NaN NaN
4 2.0 2.0 NaN NaN
3 2.0 2.0 NaN NaN

axis=1时axes=[df1.index],合并后index使用df2的:

pd.concat([df1, df2], axis=1, join_axes=[df1.index])
  D  C  B  A  F  E  D  C
4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN

同时设置join和join_axes的,以join_axes为准:

>>> pd.concat([df1, df2], axis=0, join='inner', join_axes=[df1.columns])
  D  C  B  A
4 1.0 1.0 1.0 1.0
3 1.0 1.0 1.0 1.0
2 1.0 1.0 1.0 1.0
1 1.0 1.0 1.0 1.0
6 2.0 2.0 NaN NaN
5 2.0 2.0 NaN NaN
4 2.0 2.0 NaN NaN
3 2.0 2.0 NaN NaN

1.4,ignore_index

默认值:ignore_index=False

合并方向是否忽略原行/列名称,而采用系统默认的索引,即从0开始的int。

axis=0时ignore_index=True,index采用系统默认索引:

>>> pd.concat([df1, df2], axis=0, ignore_index=True)
  A  B  C  D  E  F
0 1.0 1.0 1.0 1.0 NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN
3 1.0 1.0 1.0 1.0 NaN NaN
4 NaN NaN 2.0 2.0 2.0 2.0
5 NaN NaN 2.0 2.0 2.0 2.0
6 NaN NaN 2.0 2.0 2.0 2.0
7 NaN NaN 2.0 2.0 2.0 2.0

axis=1时ignore_index=True,columns采用系统默认索引:

>>> pd.concat([df1, df2], axis=1, ignore_index=True)
  0  1  2  3  4  5  6  7
1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
5 NaN NaN NaN NaN 2.0 2.0 2.0 2.0
6 NaN NaN NaN NaN 2.0 2.0 2.0 2.0

1.5,keys

默认值:keys=None

可以加一层标签,标识行/列名称属于原来哪个df。

axis=0时设置keys:

>>> pd.concat([df1, df2], axis=0, keys=['x', 'y'])
   A  B  C  D  E  F
x 4 1.0 1.0 1.0 1.0 NaN NaN
 3 1.0 1.0 1.0 1.0 NaN NaN
 2 1.0 1.0 1.0 1.0 NaN NaN
 1 1.0 1.0 1.0 1.0 NaN NaN
y 6 NaN NaN 2.0 2.0 2.0 2.0
 5 NaN NaN 2.0 2.0 2.0 2.0
 4 NaN NaN 2.0 2.0 2.0 2.0
 3 NaN NaN 2.0 2.0 2.0 2.0

axis=1时设置keys:

>>> pd.concat([df1, df2], axis=1, keys=['x', 'y'])
   x          y        
   D  C  B  A  F  E  D  C
1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
5 NaN NaN NaN NaN 2.0 2.0 2.0 2.0
6 NaN NaN NaN NaN 2.0 2.0 2.0 2.0 

也可以传字典取代keys:

>>> pd.concat({'x': df1, 'y': df2}, axis=0)
   A  B  C  D  E  F
x 4 1.0 1.0 1.0 1.0 NaN NaN
 3 1.0 1.0 1.0 1.0 NaN NaN
 2 1.0 1.0 1.0 1.0 NaN NaN
 1 1.0 1.0 1.0 1.0 NaN NaN
y 6 NaN NaN 2.0 2.0 2.0 2.0
 5 NaN NaN 2.0 2.0 2.0 2.0
 4 NaN NaN 2.0 2.0 2.0 2.0
 3 NaN NaN 2.0 2.0 2.0 2.0

1.6,levels

默认值:levels=None

明确行/列名称取值范围:

>>> pd.concat([df1, df2], axis=0, keys=['x', 'y'], levels=[['x', 'y', 'z', 'w']])
>>> df.index.levels
[['x', 'y', 'z', 'w'], ['1', '2', '3', '4', '5', '6']]

1.7,sort

默认值:sort=True,提示新版本会设置默认为False,并取消该参数

但0.22.0中虽然取消了,还是设置为True

非合并方向的行/列名称是否排序。例如1.1中默认axis=0时columns进行了排序,axis=1时index进行了排序。

axis=0时sort=False,columns不作排序:

>>> pd.concat([df1, df2], axis=0, sort=False)
  D  C  B  A  F  E
4 1.0 1.0 1.0 1.0 NaN NaN
3 1.0 1.0 1.0 1.0 NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN
6 2.0 2.0 NaN NaN 2.0 2.0
5 2.0 2.0 NaN NaN 2.0 2.0
4 2.0 2.0 NaN NaN 2.0 2.0
3 2.0 2.0 NaN NaN 2.0 2.0

axis=1时sort=False,index不作排序:

>>> pd.concat([df1, df2], axis=1, sort=False)
  D  C  B  A  F  E  D  C
4 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
3 1.0 1.0 1.0 1.0 2.0 2.0 2.0 2.0
2 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN NaN NaN
6 NaN NaN NaN NaN 2.0 2.0 2.0 2.0
5 NaN NaN NaN NaN 2.0 2.0 2.0 2.0

1.8,concat多个DataFrame

>>> pd.concat([df1, df2, df3], sort=False, join_axes=[df1.columns])
  D  C  B  A
4 1.0 1.0 1.0 1.0
3 1.0 1.0 1.0 1.0
2 1.0 1.0 1.0 1.0
1 1.0 1.0 1.0 1.0
6 2.0 2.0 NaN NaN
5 2.0 2.0 NaN NaN
4 2.0 2.0 NaN NaN
3 2.0 2.0 NaN NaN
6 NaN NaN 3.0 3.0
5 NaN NaN 3.0 3.0
2 NaN NaN 3.0 3.0
1 NaN NaN 3.0 3.0

2,append

append(self, other, ignore_index=False, verify_integrity=False)

竖方向合并df,没有axis属性

不会就地修改,而是会创建副本

示例:

>>> df1.append(df2)  # 相当于pd.concat([df1, df2])
  A  B  C  D  E  F
4 1.0 1.0 1.0 1.0 NaN NaN
3 1.0 1.0 1.0 1.0 NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN
6 NaN NaN 2.0 2.0 2.0 2.0
5 NaN NaN 2.0 2.0 2.0 2.0
4 NaN NaN 2.0 2.0 2.0 2.0
3 NaN NaN 2.0 2.0 2.0 2.0

2.1,ignore_index属性

>>> df1.append(df2, ignore_index=True)
  A  B  C  D  E  F
0 1.0 1.0 1.0 1.0 NaN NaN
1 1.0 1.0 1.0 1.0 NaN NaN
2 1.0 1.0 1.0 1.0 NaN NaN
3 1.0 1.0 1.0 1.0 NaN NaN
4 NaN NaN 2.0 2.0 2.0 2.0
5 NaN NaN 2.0 2.0 2.0 2.0
6 NaN NaN 2.0 2.0 2.0 2.0
7 NaN NaN 2.0 2.0 2.0 2.0

2.2,append多个DataFrame

和concat相同,append也支持append多个DataFrame

>>> df1.append([df2, df3], ignore_index=True)
   A  B  C  D  E  F
0  1.0 1.0 1.0 1.0 NaN NaN
1  1.0 1.0 1.0 1.0 NaN NaN
2  1.0 1.0 1.0 1.0 NaN NaN
3  1.0 1.0 1.0 1.0 NaN NaN
4  NaN NaN 2.0 2.0 2.0 2.0
5  NaN NaN 2.0 2.0 2.0 2.0
6  NaN NaN 2.0 2.0 2.0 2.0
7  NaN NaN 2.0 2.0 2.0 2.0
8  3.0 3.0 NaN NaN 3.0 3.0
9  3.0 3.0 NaN NaN 3.0 3.0
10 3.0 3.0 NaN NaN 3.0 3.0
11 3.0 3.0 NaN NaN 3.0 3.0

3,merge

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
     left_index=False, right_index=False, sort=True,
     suffixes=('_x', '_y'), copy=True, indicator=False,
     validate=None)

示例:

>>> left = pd.DataFrame({'A': ['a0', 'a1', 'a2', 'a3'],
             'B': ['b0', 'b1', 'b2', 'b3'],
             'k1': ['x', 'x', 'y', 'y']})
>>> right = pd.DataFrame({'C': ['c1', 'c2', 'c3', 'c4'],
             'D': ['d1', 'd2', 'd3', 'd4'],
             'k1': ['y', 'y', 'z', 'z']})
>>> left
  A  B k1
0 a0 b0 x
1 a1 b1 x
2 a2 b2 y
3 a3 b3 y
>>> right
  C  D k1
0 c1 d1 y
1 c2 d2 y
2 c3 d3 z
3 c4 d4 z

对df1和df2进行merge:

>>> pd.merge(left, right)
  A  B k1 C  D
0 a2 b2 y c1 d1
1 a2 b2 y c2 d2
2 a3 b3 y c1 d1
3 a3 b3 y c2 d2

可以看到只有df1和df2的key1=y的行保留了下来,即默认合并后只保留有共同列项并且值相等行(即交集)。

本例中left和right的k1=y分别有2个,最终构成了2*2=4行。

如果没有共同列会报错:

>>> del left['k1']
>>> pd.merge(left, right)
pandas.errors.MergeError: No common columns to perform merge on

3.1,on属性

新增一个共同列,但没有相等的值,发现合并返回是空列表,因为默认只保留所有共同列都相等的行:

>>> left['k2'] = list('1234')
>>> right['k2'] = list('5678')
>>> pd.merge(left, right)
Empty DataFrame
Columns: [B, A, k1, k2, F, E]
Index: []

可以指定on,设定合并基准列,就可以根据k1进行合并,并且left和right共同列k2会同时变换名称后保留下来:

>>> pd.merge(left, right, on='k1')
  A  B k1 k2_x  C  D  k2_y
0 a2 b2 y   3  c1 d1  5
1 a2 b2 y   3  c2 d2  6
2 a3 b3 y   4  c1 d1  5
3 a3 b3 y   4  c2 d2  6

默认值:on的默认值是所有共同列,本例为:on=['k1', 'k2']

3.2,how属性

how取值范围:'inner', 'outer', 'left', 'right'

默认值:how='inner'

‘inner':共同列的值必须完全相等:

>>> pd.merge(left, right, on='k1', how='inner')
  A  B k1 k2_x  C  D  k2_y
0 a2 b2 y   3  c1 d1  5
1 a2 b2 y   3  c2 d2  6
2 a3 b3 y   4  c1 d1  5
3 a3 b3 y   4  c2 d2  6

‘outer':共同列的值都会保留,left或right在共同列上的差集,会对它们的缺失列项的值赋上NaN:

>>> pd.merge(left, right, on='k1', how='outer')
  A  B k1  k2_x C  D k2_y
0  a0  b0 x  1 NaN NaN NaN
1  a1  b1 x  2 NaN NaN NaN
2  a2  b2 y  3  c1  d1  5
3  a2  b2 y  3  c2  d2  6
4  a3  b3 y  4  c1  d1  5
5  a3  b3 y  4  c2  d2  6
6 NaN NaN z NaN  c3  d3  7
7 NaN NaN z NaN  c4  d4  8

‘left':根据左边的DataFrame确定共同列的保留值,右边缺失列项的值赋上NaN:

pd.merge(left, right, on='k1', how='left')
  A  B k1 k2_x C  D  k2_y
0 a0 b0 x  1 NaN NaN NaN
1 a1 b1 x  2 NaN NaN NaN
2 a2 b2 y  3  c1  d1  5
3 a2 b2 y  3  c2  d2  6
4 a3 b3 y  4  c1  d1  5
5 a3 b3 y  4  c2  d2  6

‘right':根据右边的DataFrame确定共同列的保留值,左边缺失列项的值赋上NaN:

>>> pd.merge(left, right, on='k1', how='right')
   A  B k1 k2_x C  D  k2_y
0  a2  b2 y  3 c1 d1  5
1  a3  b3 y  4 c1 d1  5
2  a2  b2 y  3 c2 d2  6
3  a3  b3 y  4 c2 d2  6
4 NaN NaN z NaN c3 d3  7
5 NaN NaN z NaN c4 d4  8

3.3,indicator

默认值:indicator=False,不显示合并方式

设置True表示显示合并方式,即left / right / both:

>>> pd.merge(left, right, on='k1', how='outer', indicator=True)
   A  B k1 k2_x C  D  k2_y   _merge
0  a0  b0 x  1 NaN NaN NaN  left_only
1  a1  b1 x  2 NaN NaN NaN  left_only
2  a2  b2 y  3  c1  d1  5    both
3  a2  b2 y  3  c2  d2  6    both
4  a3  b3 y  4  c1  d1  5    both
5  a3  b3 y  4  c2  d2  6    both
6 NaN NaN z NaN  c3  d3  7 right_only
7 NaN NaN z NaN  c4  d4  8 right_only

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python命令行参数解析模块optparse使用实例
Apr 13 Python
Python实现合并字典的方法
Jul 07 Python
Python画图学习入门教程
Jul 01 Python
Python2.7基于淘宝接口获取IP地址所在地理位置的方法【测试可用】
Jun 07 Python
《Python学习手册》学习总结
Jan 17 Python
pyQt4实现俄罗斯方块游戏
Jun 26 Python
Python运维开发之psutil库的使用详解
Oct 18 Python
Python 实现王者荣耀中的敏感词过滤示例
Jan 21 Python
Python3操作Excel文件(读写)的简单实例
Sep 02 Python
python 制作python包,封装成可用模块教程
Jul 13 Python
Ubuntu 20.04安装Pycharm2020.2及锁定到任务栏的问题(小白级操作)
Oct 29 Python
python for循环赋值问题
Jun 03 Python
pandas.cut具体使用总结
Jun 24 #Python
使用pyinstaller打包PyQt4程序遇到的问题及解决方法
Jun 24 #Python
python日期相关操作实例小结
Jun 24 #Python
使用Python Pandas处理亿级数据的方法
Jun 24 #Python
Python3批量生成带logo的二维码方法
Jun 24 #Python
解决python文件双击运行秒退的问题
Jun 24 #Python
对python中的控制条件、循环和跳出详解
Jun 24 #Python
You might like
PHP基于自定义类随机生成姓名的方法示例
2017/08/05 PHP
VBScript版代码高亮
2006/06/26 Javascript
javascript innerText和innerHtml应用
2010/01/28 Javascript
基于React.js实现原生js拖拽效果引发的思考
2016/03/30 Javascript
javascript实现数字倒计时特效
2016/03/30 Javascript
用nodeJS搭建本地文件服务器的几种方法小结
2017/03/16 NodeJs
JS简单获取当前日期时间的方法(如:2017-03-29 11:41:10 星期四)
2017/03/29 Javascript
在node中如何使用 ES6
2017/04/22 Javascript
IE11下使用canvas.toDataURL报SecurityError错误的解决方法
2017/11/19 Javascript
详解vue指令与$nextTick 操作DOM的不同之处
2018/08/02 Javascript
解决Vue axios post请求,后台获取不到数据的问题方法
2018/08/11 Javascript
详解vue移动端项目代码拆分记录
2019/03/15 Javascript
JavaScript实现英语单词题库
2019/12/24 Javascript
python使用htmllib分析网页内容的方法
2015/05/08 Python
Python下使用Scrapy爬取网页内容的实例
2018/05/21 Python
浅析python3中的os.path.dirname(__file__)的使用
2018/08/30 Python
浅析python3字符串格式化format()函数的简单用法
2018/12/07 Python
python取余运算符知识点详解
2019/06/27 Python
Pytorch 多维数组运算过程的索引处理方式
2019/12/27 Python
浅谈pytorch 模型 .pt, .pth, .pkl的区别及模型保存方式
2020/05/25 Python
Scrapy框架介绍之Puppeteer渲染的使用
2020/06/19 Python
Python中openpyxl实现vlookup函数的实例
2020/10/28 Python
HTML5 File API改善网页上传功能
2009/08/19 HTML / CSS
联想法国官方网站:Lenovo法国
2018/10/18 全球购物
LG西班牙网上商店:Tienda LG Online Es
2019/07/30 全球购物
汽车驾驶求职信
2013/10/25 职场文书
教导处工作制度
2014/01/18 职场文书
企业党的群众路线教育实践活动领导班子对照检查材料
2014/09/25 职场文书
2014年办公室主任工作总结
2014/11/12 职场文书
2015年安康杯竞赛活动总结
2015/03/26 职场文书
小学教师工作总结2015
2015/04/07 职场文书
《岳阳楼记》原文、译文赏析
2019/09/10 职场文书
JavaScript 定时器详情
2021/11/11 Javascript
mysql分组后合并显示一个字段的多条数据方式
2022/01/22 MySQL
豆瓣2021评分最高动画剧集-豆瓣评分最高的动画剧集2021
2022/03/18 日漫
Go微服务项目配置文件的定义和读取示例详解
2022/06/21 Golang