Python Pandas知识点之缺失值处理详解


Posted in Python onMay 11, 2021

前言

数据处理过程中,经常会遇到数据有缺失值的情况,本文介绍如何用Pandas处理数据中的缺失值。

一、什么是缺失值

对数据而言,缺失值分为两种,一种是Pandas中的空值,另一种是自定义的缺失值。

1. Pandas中的空值有三个:np.nan (Not a Number) 、 None 和 pd.NaT(时间格式的空值,注意大小写不能错),这三个值可以用Pandas中的函数isnull(),notnull(),isna()进行判断。

Python Pandas知识点之缺失值处理详解

isnull()和notnull()的结果互为取反,isnull()和isna()的结果一样。对于这三个函数,只需要用其中一个就可以识别出数据中是否有空值。如果数据量较大,再配合numpy中的any()和all()函数就行了。

需要特别注意两点:

  • 如果某一列数据全是空值且包含pd.NaT,np.nan和None会自动转换成pd.NaT。
  • 空值(np.nan、None、pd.NaT)既不是空字符串"",也不是空格" "。

Python Pandas知识点之缺失值处理详解

从Python解释器来看,np.nan的类型是float,None的类型是NoneType,两者在Pandas中都显示为NaN,pd.NaT的类型是Pandas中的NaTType,显示为NaT。而不管是空字符串还是空格,其数据类型都是字符串,Pandas判断的结果不是空值。

2. 自定义缺失值有很多不同的形式,如上面刚说的空字符串和空格(当然,一般不用这两个,因为看起来不够直观)。

在获取数据时,可能会有一些数据无法得到,也可能数据本身就没有,造成了缺失值。对于这些缺失值,在获取数据时通常会用一些符号之类的数据来代替,如问号?,斜杠/,字母NA等。

如果处理的数据是自己获取的,那自己知道缺失值是怎么定义的,如果数据是其他人提供的,一般会同时提供数据的说明文档,说明文档中会注明缺失值的定义方式。

对于自定义缺失值,不能用isnull()等三个函数来判断,不过可以用isin()函数来判断。找到这些值后,将其替换成np.nan,数据就只有空值一种缺失值了。

此外,在数据处理的过程中,也可能产生缺失值,如除0计算,数字与空值计算等。

二、判断缺失值

1. 自定义缺失值的判断和替换

Python Pandas知识点之缺失值处理详解

isin(values): 判断Series或DataFrame中是否包含某些值,可以传入一个可迭代对象、Series、DataFrame或字典。在我们判断某个自定义的缺失值是否存在于数据中时,用列表的方式传入就可以了。

replace(to_replace=None, value=None): 替换Series或DataFrame中的指定值,一般传入两个参数,to_replace为被替换的值,value为替换后的值。to_replace和value不仅支持Python中的整型、字符串、列表、字典等,还支持正则表达式。

使用replace()时,默认返回原数据的一个副本,replace()中的inplace参数默认为False,将inplace参数修改为True,则会修改数据本身。其他参数这里就不展开了,有需要可以自己添加。

其实replace()函数已经可以用于缺失值的填充处理了,直接一步到位,而不用先替换成空值再处理。当然,先替换成空值,可以与空值一起处理。

2. 空值判断

Python Pandas知识点之缺失值处理详解

isnull(): 判断Series或DataFrame中是否包含空值,与isna()结果相同,与notnull()结果相反。返回结果是一个与原数据形状相同的Series或DataFrame。

如果数据很多,我们不可能肉眼观察返回结果中的布尔值,所以需要借助numpy中的any()函数或all()函数,进一步对结果进行判断。

三、删除缺失值

Python Pandas知识点之缺失值处理详解

dropna(axis=0, how="any", thresh=None, subset=None, inplace=False): 删除Series或DataFrame中的空值。

Python Pandas知识点之缺失值处理详解

axis: axis参数默认为0('index'),按行删除,即删除有空值的行。将axis参数修改为1或‘columns',则按列删除,即删除有空值的列。在实际的应用中,一般不会按列删除,例如数据中的一列表示年龄,不能因为年龄有缺失值而删除所有年龄数据。

Python Pandas知识点之缺失值处理详解

how: how参数默认为any,只要一行(或列)数据中有空值就会删除该行(或列)。将how参数修改为all,则只有一行(或列)数据中全部都是空值才会删除该行(或列)。

Python Pandas知识点之缺失值处理详解

thresh: 表示删除空值的界限,传入一个整数。如果一行(或列)数据中少于thresh个非空值(non-NA values),则删除。​也就是说,一行(或列)数据中至少要有thresh个非空值,否则删除。

Python Pandas知识点之缺失值处理详解

subset: 删除空值时,只判断subset指定的列(或行)的子集,其他列(或行)中的空值忽略,不处理。当按行进行删除时,subset设置成列的子集,反之。

inplace: 默认为False,返回原数据的一个副本。将inplace参数修改为True,则会修改数据本身。

删除缺失值,必然会导致数据量的减少,如果缺失值占数据的比例较大,比如超过了数据的10%(具体标准根据项目来定),删除数据对数据分析的结果会有很大的影响,不合理。

四、填充缺失值

Python Pandas知识点之缺失值处理详解

fillna(value=None, method=None, axis=None, inplace=False, limit=None): 填充Series或DataFrame中的空值。

value: 表示填充的值,可以是一个指定值,也可以是字典, Series或DataFrame。

Python Pandas知识点之缺失值处理详解

method: 填充的方式,默认为None。有 ffill,pad,bfill,backfill 四种填充方式可以使用,ffill 和 pad 表示用缺失值的前一个值填充,如果axis=0,则用空值上一行的值填充,如果axis=1,则用空值左边的值填充。假如空值在第一行或第一列,以及空值前面的值全都是空值,则无法获取到可用的填充值,填充后依然保持空值。bfill 和 backfill 表示用缺失值的后一个值填充,axis的用法以及找不到填充值的情况同 ffill 和 pad 。

注意:当指定填充方式method时,不能同时指定填充值value,否则报错。

axis: 通常配合method参数使用,axis=0表示按行,axis=1表示按列。

Python Pandas知识点之缺失值处理详解

limit: 表示填充执行的次数。如果是按行填充,则填充一行表示执行一次,按列同理。

Python Pandas知识点之缺失值处理详解

在缺失值填充时,填充值是自定义的,对于数值型数据,最常用的两种填充值是用该列的均值和众数。DataFrame的众数也是一个DataFrame数据,众数可能有多个(极限情况下,当数据中没有重复值时,众数就是原DataFrame本身),所以用mode()函数求众数时取第一行用于填充就行了。

Python Pandas知识点之缺失值处理详解

除了可以在fillna()函数中传入method参数指定填充方式外,Pandas中也实现了不同填充方式的函数,可以直接调用。

pad(axis=0, inplace=False, limit=None): 用缺失值的前一个值填充。

ffill(): 同pad()。

bfill(): 用缺失值的后一个值填充。

backfill(): 同bfill()。

在进行数据填充时,可能填充之后还有空值,如用ffill 和 pad填充时,数据第一行就是空值。对于这种情况,需要在填充前人工进行判断,避免选择不适合的填充方式,并在填充完成后,再检查一次数据中是否还有空值。

总结

到此这篇关于Python Pandas知识点之缺失值处理的文章就介绍到这了,更多相关Pandas缺失值处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python BeautifulSoup中文乱码问题的2种解决方法
Apr 22 Python
用C++封装MySQL的API的教程
May 06 Python
用Python解决计数原理问题的方法
Aug 04 Python
python读取xlsx的方法
Dec 25 Python
用python 实现在不确定行数情况下多行输入方法
Jan 28 Python
python opencv捕获摄像头并显示内容的实现
Jul 11 Python
python字典排序的方法
Oct 12 Python
Python numpy多维数组实现原理详解
Mar 10 Python
Keras中的多分类损失函数用法categorical_crossentropy
Jun 11 Python
next在python中返回迭代器的实例方法
Dec 15 Python
python 高阶函数简单介绍
Feb 19 Python
Python自动操作神器PyAutoGUI的使用教程
Jun 16 Python
Pytorch实现图像识别之数字识别(附详细注释)
浅谈Python基础之列表那些事儿
详解Python牛顿插值法
Python中使用subprocess库创建附加进程
有趣的二维码:使用MyQR和qrcode来制作二维码
python保存大型 .mat 数据文件报错超出 IO 限制的操作
May 10 #Python
Python批量将csv文件转化成xml文件的实例
You might like
PHP 中提示undefined index如何解决(多种方法)
2016/03/16 PHP
PHP页面输出时js设置input框的选中值
2016/09/30 PHP
PHP+MySQL高并发加锁事务处理问题解决方法
2018/04/30 PHP
javascript网页关键字高亮代码
2008/07/30 Javascript
解决火狐浏览器下JS setTimeout函数不兼容失效不执行的方法
2012/11/14 Javascript
jquery text()方法取标签中的文本
2014/07/25 Javascript
jQuery实现隔行背景色变色
2014/11/24 Javascript
jQuery常用且重要方法汇总
2015/07/13 Javascript
利用Chrome DevTools直接调试Node.js和JavaScript的方法详解(并行)
2017/02/16 Javascript
JS实现根据密码长度显示安全条功能
2017/03/08 Javascript
手机端转换rem适应
2017/04/01 Javascript
详解vue表单验证组件 v-verify-plugin
2017/04/19 Javascript
vue的Virtual Dom实现snabbdom解密
2017/05/03 Javascript
angular select 默认值设置方法
2017/06/23 Javascript
React通过父组件传递类名给子组件的实现方法
2017/11/13 Javascript
Vue项目History模式404问题解决方法
2018/10/31 Javascript
vue.js的vue-cli脚手架中使用百度地图API的实例
2019/01/21 Javascript
JS中min函数实例讲解
2019/02/18 Javascript
解决echarts图表使用v-show控制图表显示不全的问题
2020/07/19 Javascript
[01:12]DOTA2次级职业联赛 - Newbee.Y 战队宣传片
2014/12/01 DOTA
Python多线程学习资料
2012/12/19 Python
Python中的魔法方法深入理解
2014/07/09 Python
python操作gmail实例
2015/01/14 Python
在Docker上开始部署Python应用的教程
2015/04/17 Python
Python学习入门之区块链详解
2017/07/25 Python
python爬虫正则表达式之处理换行符
2018/06/08 Python
Python设计模式之抽象工厂模式原理与用法详解
2019/01/15 Python
详解python实现数据归一化处理的方式:(0,1)标准化
2019/07/17 Python
python中Pexpect的工作流程实例讲解
2021/03/02 Python
医院院务公开实施方案
2014/05/03 职场文书
文明寝室标语
2014/06/13 职场文书
《中国梦我的梦》中学生演讲稿
2014/08/20 职场文书
2015年学校教务处工作总结
2015/05/11 职场文书
Apache Pulsar结合Hudi构建Lakehouse方案分析
2022/03/31 Servers
MySQL提取JSON字段数据实现查询
2022/04/22 MySQL
MySQL实现用逗号进行拼接、以逗号进行分割
2022/12/24 MySQL