Pandas实现一列数据分隔为两列


Posted in Python onMay 18, 2020

分割成一个包含两个元素列表的列

对于一个已知分隔符的简单分割(例如,用破折号分割或用空格分割).str.split() 方法就足够了 。 它在字符串的列(系列)上运行,并返回列表(系列)。

>>> import pandas as pd
>>> df = pd.DataFrame({'AB': ['A1-B1', 'A2-B2']})
>>> df

  AB
0 A1-B1
1 A2-B2
>>> df['AB_split'] = df['AB'].str.split('-')
>>> df

  AB AB_split
0 A1-B1 [A1, B1]
1 A2-B2 [A2, B2]

分割成两列,每列包含列表的相应元素

下面来看下如何从:分割成一个包含两个元素列表的列至分割成两列,每列包含列表的相应元素。

>>> df['AB'].str[0]

0 A
1 A
Name: AB, dtype: object

>>> df['AB'].str[1]

0 1
1 2
Name: AB, dtype: object

因此可以得到

>>> df['AB'].str.split('-', 1).str[0]

0 A1
1 A2
Name: AB, dtype: object

>>> df['AB'].str.split('-', 1).str[1]

0 B1
1 B2
Name: AB, dtype: object

可以通过如下代码将pandas的一列分成两列:

>>> df['A'], df['B'] = df['AB'].str.split('-', 1).str
>>> df

  AB AB_split A B
0 A1-B1 [A1, B1] A1 B1
1 A2-B2 [A2, B2] A2 B2

补充知识:pandas某一列中每一行拆分成多行的方法

在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。

在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,

info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))

看起来非常之长,分开来看,流程如下:

将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列

将拆分后的多列数据进行列转行操作(stack),合并成一列

将生成的复合索引重新进行reset保留原始的索引,并命名

将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接

具体操作如下:

预操作:生成需要使用的DataFrame

# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()

# 生成一个DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])

结果如下:

name phone-number city state
0 Hannah Richard 810-859-7815 Irwinville Louisiana
1 Ronald Berry 591-564-0585 Glen Ellen Minnesota
2 Caitlin Barron 969-840-8580 Dubois Oklahoma
3 Felicia Stephens 154-858-1233 Veedersburg Alaska
4 Shelly Dennis 343-104-9365 Mattapex Virginia
5 Nicholas Hill 992-239-1954 Moneta Minnesota
6 Steve Bradshaw 164-081-7811 Ten Broeck Colorado
7 Gail Johnston 155-259-9514 Wayan Virginia
8 John Gray 409-892-4716 Darlington Pennsylvania
9 Katherine Bautista 185-861-1677 McNab Texas

假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列

info_city = info['city'].str.split(' ', expand=True)

结果如下:

0 1
0 Irwinville None
1 Glen Ellen
2 Dubois None
3 Veedersburg None
4 Mattapex None
5 Moneta None
6 Ten Broeck
7 Wayan None
8 Darlington None
9 McNab None

可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None

第二步:行转列

info_city = info_city.stack()

结果如下:

0 0 Irwinville
1 0 Glen
1 Ellen
2 0 Dubois
3 0 Veedersburg
4 0 Mattapex
5 0 Moneta
6 0 Ten
1 Broeck
7 0 Wayan
8 0 Darlington
9 0 McNab

其中前面两列是索引,返回的是一个series,没有名字的series

第三步:重置索引,并命名(并删除多于的索引)

info_city = info_city.reset_index(level=1, drop=True)

结果如下:

0 Irwinville
1 Glen
1 Ellen
2 Dubois
3 Veedersburg
4 Mattapex
5 Moneta
6 Ten
6 Broeck
7 Wayan
8 Darlington
9 McNab

第四步:和原始数据合并

info_new = info.drop(['city'], axis=1).join(info_city)

结果如下:

name phone-number state city
0 Hannah Richard 810-859-7815 Louisiana Irwinville
1 Ronald Berry 591-564-0585 Minnesota Glen
1 Ronald Berry 591-564-0585 Minnesota Ellen
2 Caitlin Barron 969-840-8580 Oklahoma Dubois
3 Felicia Stephens 154-858-1233 Alaska Veedersburg
4 Shelly Dennis 343-104-9365 Virginia Mattapex
5 Nicholas Hill 992-239-1954 Minnesota Moneta
6 Steve Bradshaw 164-081-7811 Colorado Ten
6 Steve Bradshaw 164-081-7811 Colorado Broeck
7 Gail Johnston 155-259-9514 Virginia Wayan
8 John Gray 409-892-4716 Pennsylvania Darlington
9 Katherine Bautista 185-861-1677 Texas McNab

需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了

写了这么多,记住下面的就行了:

info.drop([‘city'], axis=1).join(info[‘city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city'))

如果原数据中已经是list了,可以将info[‘city'].str.split(' ', expand=True)这部分替换成info[‘city'].apply(lambda x: pd.Series(x)),就可以达到相同的目的。

以上这篇Pandas实现一列数据分隔为两列就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python制作花瓣网美女图片爬虫
Oct 28 Python
Python处理Excel文件实例代码
Jun 20 Python
Python 中 Virtualenv 和 pip 的简单用法详解
Aug 18 Python
如何利用python制作时间戳转换工具详解
Sep 12 Python
Kali Linux安装ipython2 和 ipython3的方法
Jul 11 Python
Python实现二叉树的最小深度的两种方法
Sep 30 Python
Django admin禁用编辑链接和添加删除操作详解
Nov 15 Python
Python中Flask-RESTful编写API接口(小白入门)
Dec 11 Python
Python函数生成器原理及使用详解
Mar 12 Python
Keras搭建自编码器操作
Jul 03 Python
python实现批量移动文件
Apr 05 Python
常用的Python代码调试工具总结
Jun 23 Python
Python捕获异常堆栈信息的几种方法(小结)
May 18 #Python
Windows 下更改 jupyterlab 默认启动位置的教程详解
May 18 #Python
DjangoWeb使用Datatable进行后端分页的实现
May 18 #Python
django-orm F对象的使用 按照两个字段的和,乘积排序实例
May 18 #Python
PyTorch中torch.tensor与torch.Tensor的区别详解
May 18 #Python
django queryset相加和筛选教程
May 18 #Python
python中JWT用户认证的实现
May 18 #Python
You might like
php页面消耗内存过大的处理办法
2013/03/18 PHP
PHP判断一个字符串是否是回文字符串的方法
2015/03/23 PHP
PHP 5.6.11 访问SQL Server2008R2的几种情况详解
2016/08/08 PHP
ThinkPHP使用getlist方法实现数据搜索功能示例
2017/05/08 PHP
Laravel中七个非常有用但很少人知道的Carbon方法
2017/09/21 PHP
关于使用runtimeStyle属性问题讨论文章
2007/03/08 Javascript
RGB颜色值转HTML十六进制(HEX)代码的JS函数
2009/04/25 Javascript
php图像生成函数之间的区别分析
2012/12/06 Javascript
JQuery自动触发事件的方法
2015/06/13 Javascript
javascript比较两个日期相差天数的方法
2015/07/24 Javascript
js实现的早期滑动门菜单效果代码
2015/08/27 Javascript
自己动手写的jquery分页控件(非常简单实用)
2015/10/28 Javascript
nodejs修复ipa处理过的png图片
2016/02/17 NodeJs
基于JQuery实现分隔条的功能
2016/06/17 Javascript
两行代码轻松搞定JavaScript日期验证
2016/08/03 Javascript
Bootstrap源码解读标签、徽章、缩略图和警示框(8)
2016/12/26 Javascript
详解Vue路由History mode模式中页面无法渲染的原因及解决
2017/09/28 Javascript
详解组件库的webpack构建速度优化
2018/06/18 Javascript
微信小程序开发之改变data中数组或对象的某一属性值
2018/07/05 Javascript
详解微信小程序实现跑马灯效果(附完整代码)
2019/04/29 Javascript
electron-vue利用webpack打包实现多页面的入口文件问题
2019/05/12 Javascript
基于vue-cli搭建多模块且各模块独立打包的项目
2019/06/12 Javascript
[01:25:33]完美世界DOTA2联赛PWL S3 INK ICE vs Magma 第二场 12.20
2020/12/23 DOTA
pandas使用get_dummies进行one-hot编码的方法
2018/07/10 Python
python 实现矩阵上下/左右翻转,转置的示例
2019/01/23 Python
利用Python进行图像的加法,图像混合(附代码)
2019/07/14 Python
如何基于python操作excel并获取内容
2019/12/24 Python
Python稀疏矩阵及参数保存代码实现
2020/04/18 Python
Ajax实现页面无刷新留言效果
2021/03/24 Javascript
军训生自我鉴定范文
2013/12/27 职场文书
公司道歉信范文
2014/01/09 职场文书
称象教学反思
2014/02/03 职场文书
实践单位评语
2014/04/26 职场文书
幼儿园教研活动总结
2014/04/30 职场文书
作风整顿个人剖析材料
2014/10/06 职场文书
迎新生欢迎词
2015/01/23 职场文书