编程 Python

pandas数据清洗,排序,索引设置,数据选取方法

Posted in Python onMay 18, 2018

此教程适合有pandas基础的童鞋来看，很多知识点会一笔带过，不做详细解释

Pandas数据格式

Series

DataFrame：每个column就是一个Series

基础属性shape,index,columns,values，dtypes，describe(),head(),tail()

统计属性Series： count(),value_counts()，前者是统计总数，后者统计各自value的总数

df.isnull() df的空值为True

df.notnull() df的非空值为True

修改列名

df.rename(columns = {'key':'key2'},inplace=True)

更改数据格式astype()

isin     #计算一个“Series各值是否包含传入的值序列中”的布尔数组
unique    #返回唯一值的数组
value_counts   #返回一个Series，其索引为唯一值，值为频率，按计数降序排列

数据清洗

丢弃值drop()

df.drop(labels, axis=1)# 按列（axis=1），丢弃指定label的列,默认按行。。。

丢弃缺失值dropna()

# 默认axi=0（行）；1（列），how=‘any'
df.dropna()#每行只要有空值，就将这行删除
df.dropna(axis=1)#每列只要有空值，整列丢弃
df.dropna(how='all')# 一行中全部为NaN的，才丢弃该行
df.dropna(thresh=3)# 每行至少3个非空值才保留

缺失值填充fillna()

df.fillna(0)
df.fillna({1:0,2:0.5}) #对第一列nan值赋0，第二列赋值0.5
df.fillna(method='ffill') #在列方向上以前一个值作为值赋给NaN

值替换replace()

# 将df的A列中 -999 全部替换成空值
df['A'].replace(-999, np.nan)
#-999和1000 均替换成空值
obj.replace([-999,1000], np.nan)
# -999替换成空值，1000替换成0
obj.replace([-999,1000], [np.nan, 0])
# 同上，写法不同，更清晰
obj.replace({-999:np.nan, 1000:0})

重复值处理duplicated()，unique()，drop_duplictad()

df.duplicated()#两行每列完全一样才算重复，后面重复的为True，第一个和不重复的为false，返回true
    #和false组成的Series类型
df.duplicated('key')#两行key这一列一样就算重复

df['A'].unique()# 返回唯一值的数组（类型为array）

df.drop_duplicates(['k1'])# 保留k1列中的唯一值的行，默认保留第一行
df.drop_duplicates(['k1','k2'], take_last=True)# 保留 k1和k2 组合的唯一值的行，take_last=True 保留最后一行

排序

索引排序

# 默认axis=0，按行索引对行进行排序；ascending=True，升序排序
df.sort_index()
# 按列名对列进行排序，ascending=False 降序
df.sort_index(axis=1, ascending=False)

值排序

# 按值对Series进行排序，使用order()，默认空值会置于尾部
s = pd.Series([4, 6, np.nan, 2, np.nan])
s.order()

df.sort_values(by=['a','b'])#按列进行排序

排名

a=Series([7,-5,7,4,2,0,4])
a.rank()#默认method='average'，升序排名（ascending=True），按行（axis=0）
#average 值相等时，取排名的平均值
#min 值相等时，取排名最小值
#max 值相等时，取排名最大值
#first值相等时，按原始数据出现顺序排名

索引设置

reindex()

更新index或者columns，

默认：更新index，返回一个新的DataFrame

# 返回一个新的DataFrame，更新index，原来的index会被替代消失
# 如果dataframe中某个索引值不存在，会自动补上NaN
df2 = df1.reindex(['a','b','c','d','e'])

# fill_valuse为原先不存在的索引补上默认值，不在是NaN
df2 = df1.reindex(['a','b','c','d','e'], fill_value=0)

# inplace=Ture，在DataFrame上修改数据，而不是返回一个新的DataFrame
df1.reindex(['a','b','c','d','e'], inplace=Ture)

# reindex不仅可以修改 索引(行)，也可以修改列
states = ["Texas","Utah","California"]
df2 = df1.reindex( columns=states )

set_index()

将DataFrame中的列columns设置成索引index

打造层次化索引的方法

# 将columns中的其中两列：race和sex的值设置索引，race为一级，sex为二级
# inplace=True 在原数据集上修改的
adult.set_index(['race','sex'], inplace = True) 

# 默认情况下，设置成索引的列会从DataFrame中移除
# drop=False将其保留下来
adult.set_index(['race','sex'], inplace = True)

reset_index()

将使用set_index()打造的层次化逆向操作

既是取消层次化索引，将索引变回列，并补上最常规的数字索引

df.reset_index()

数据选取

[]

只能对行进行（row/index）切片，前闭后开df[0:3]，df[:4]，df[4:]

where 布尔查找

df[df["A"]>7]

isin

# 返回布尔值
s.isin([1,2,3])
df['A'].isin([1,2,3])
df.loc[df['A'].isin([5.8,5.1])]选取列A中值为5.8，5.1的所有行组成dataframe

query

多个where整合切片，&：于，|：或　

df.query(" A>5.0 & (B>3.5 | C<1.0) ")

loc ：根据名称Label切片

# df.loc[A,B] A是行范围，B是列范围
df.loc[1:4,['petal_length','petal_width']]

# 需求1：创建一个新的变量 test
# 如果sepal_length > 3 test = 1 否则 test = 0
df.loc[df['sepal_length'] > 6, 'test'] = 1
df.loc[df['sepal_length'] <=6, 'test'] = 0

# 需求2：创建一个新变量test2 
# 1.petal_length>2 and petal_width>0.3 = 1 
# 2.sepeal_length>6 and sepal_width>3 = 2 3.其他 = 0
df['test2'] = 0
df.loc[(df['petal_length']>2)&(df['petal_width']>0.3), 'test2'] = 1
df.loc[(df['sepal_length']>6)&(df['sepal_width']>3), 'test2'] = 2

iloc：切位置

df.iloc[1:4,:]

ix：混切

名称和位置混切，但效率低，少用

df1.ix[0:3,['sepal_length','petal_width']]

map与lambda

alist = [1,2,3,4]
map(lambda s : s+1, alist)#map就是将自定义函数应用于Series每个元素

df['sepal_length'].map(lambda s:s*2+1)[0:3]

apply和applymap

apply和applymap是对dataframe的操作，前者操作一行或者一列，后者操作每个元素

These are techniques to apply function to element, column or dataframe.

Map: It iterates over each element of a series. 
df[‘column1'].map(lambda x: 10+x), this will add 10 to each element of column1.
df[‘column2'].map(lambda x: ‘AV'+x), this will concatenate “AV“ at the beginning of each element of column2 (column format is string).

Apply: As the name suggests, applies a function along any axis of the DataFrame.
df[[‘column1','column2']].apply(sum), it will returns the sum of all the values of column1 and column2.
df0[['data1']].apply(lambda s:s+1)

ApplyMap: 对dataframe的每一个元素施加一个函数
func = lambda x: x+2
df.applymap(func), dataframe每个元素加2 (所有列必须数字类型)

contains

# 使用DataFrame模糊筛选数据(类似SQL中的LIKE)
# 使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次
df_obj[df_obj['套餐'].str.contains(r'.*?语音CDMA.*')] 

# 下面两句效果一致
df[df['商品名称'].str.contains("四件套")]
df[df['商品名称'].str.contains(r".*四件套.*")]

以上这篇pandas数据清洗,排序,索引设置,数据选取方法就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

pandas数据清洗,排序,索引设置,数据选取方法

- Author -

李困困

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

读写json中文ASCII乱码问题的解决方法

Nov 05 Python

Django中login_required装饰器的深入介绍

Nov 24 Python

Odoo中如何生成唯一不重复的序列号详解

Feb 10 Python

Python实现的爬取网易动态评论操作示例

Jun 06 Python

使用Python计算玩彩票赢钱概率

Jun 26 Python

Python 脚本实现淘宝准点秒杀功能

Nov 13 Python

Python hashlib常见摘要算法详解

Jan 13 Python

python实现替换word中的关键文字(使用通配符)

Feb 13 Python

tensorflow模型转ncnn的操作方式

May 25 Python

浅谈多卡服务器下隐藏部分 GPU 和 TensorFlow 的显存使用设置

Jun 30 Python

基于tf.shape(tensor)和tensor.shape()的区别说明

Jun 30 Python

Python中Cookies导出某站用户数据的方法

May 17 Python

对pandas replace函数的使用方法小结

May 18 #Python

基于DataFrame筛选数据与loc的用法详解

May 18 #Python

pandas DataFrame 根据多列的值做判断,生成新的列值实例

May 18 #Python

pandas.loc 选取指定列进行操作的实例

May 18 #Python

解决Pycharm中import时无法识别自己写的程序方法

May 18 #Python

解决pycharm无法调用pip安装的包问题

May 18 #Python

解决已经安装requests,却依然提示No module named requests问题

May 18 #Python

You might like

php 3行代码的分页算法(求起始页和结束页)

2009/10/21 PHP

PHP 引用文件技巧

2010/03/02 PHP

使用XDebug调试及单元测试覆盖率分析

2011/01/27 PHP

PHP中strtotime函数使用方法详解

2011/11/27 PHP

深入Memcache的Session数据的多服务器共享详解

2013/06/13 PHP

PHP动态编译出现Cannot find autoconf的解决方法

2014/11/05 PHP

PHP7导出Excel报ERR_EMPTY_RESPONSE解决方法

2019/04/16 PHP

php使用redis的几种常见操作方式和用法示例

2020/02/20 PHP

js实现div闪烁原理及实现代码

2014/06/24 Javascript

兼容各大浏览器的JavaScript阻止事件冒泡代码

2015/07/09 Javascript

轻量级javascript 框架Backbone使用指南

2015/07/24 Javascript

解决jQuery uploadify在非IE核心浏览器下无法上传

2015/08/05 Javascript

JS使用正则表达式除去字符串中重复字符的方法

2015/11/05 Javascript

详解Document.Cookie

2015/12/25 Javascript

将List对象列表转换成JSON格式的类实现方法

2016/07/04 Javascript

AngularJS利用Controller完成URL跳转

2016/08/09 Javascript

详解vue中使用express+fetch获取本地json文件

2017/10/10 Javascript

JS实现留言板功能[楼层效果展示]

2017/12/27 Javascript

vuejs router history 配置到iis的方法

2018/09/20 Javascript

Antd表格滚动宽度自适应不换行的实例

2020/10/27 Javascript

[02:25]DOTA2英雄基础教程虚空假面

2014/01/02 DOTA

[03:24]2014DOTA2国际邀请赛神秘商店生意火爆

2014/07/18 DOTA

python在windows命令行下输出彩色文字的方法

2015/03/19 Python

Python判断两个list是否是父子集关系的实例

2018/05/04 Python

python使用Pandas库提升项目的运行速度过程详解

2019/07/12 Python

django数据关系一对多、多对多模型、自关联的建立

2019/07/24 Python

python如何实现word批量转HTML

2020/09/30 Python

python爬虫scrapy框架之增量式爬虫的示例代码

2021/02/26 Python

巴西最大的在线约会网站：ParPerfeito

2018/07/11 全球购物

沃尔玛加拿大：Walmart.ca

2020/03/02 全球购物

函授自我鉴定范文

2014/02/06 职场文书

股权收购意向书

2014/04/01 职场文书

产品陈列协议书（标准版）

2014/09/17 职场文书

圆明园观后感

2015/06/03 职场文书

2016年教师节慰问信

2015/12/01 职场文书

python 如何做一个识别率百分百的OCR

2021/05/29 Python