Python Pandas知识点之缺失值处理详解


Posted in Python onMay 11, 2021

前言

数据处理过程中,经常会遇到数据有缺失值的情况,本文介绍如何用Pandas处理数据中的缺失值。

一、什么是缺失值

对数据而言,缺失值分为两种,一种是Pandas中的空值,另一种是自定义的缺失值。

1. Pandas中的空值有三个:np.nan (Not a Number) 、 None 和 pd.NaT(时间格式的空值,注意大小写不能错),这三个值可以用Pandas中的函数isnull(),notnull(),isna()进行判断。

Python Pandas知识点之缺失值处理详解

isnull()和notnull()的结果互为取反,isnull()和isna()的结果一样。对于这三个函数,只需要用其中一个就可以识别出数据中是否有空值。如果数据量较大,再配合numpy中的any()和all()函数就行了。

需要特别注意两点:

  • 如果某一列数据全是空值且包含pd.NaT,np.nan和None会自动转换成pd.NaT。
  • 空值(np.nan、None、pd.NaT)既不是空字符串"",也不是空格" "。

Python Pandas知识点之缺失值处理详解

从Python解释器来看,np.nan的类型是float,None的类型是NoneType,两者在Pandas中都显示为NaN,pd.NaT的类型是Pandas中的NaTType,显示为NaT。而不管是空字符串还是空格,其数据类型都是字符串,Pandas判断的结果不是空值。

2. 自定义缺失值有很多不同的形式,如上面刚说的空字符串和空格(当然,一般不用这两个,因为看起来不够直观)。

在获取数据时,可能会有一些数据无法得到,也可能数据本身就没有,造成了缺失值。对于这些缺失值,在获取数据时通常会用一些符号之类的数据来代替,如问号?,斜杠/,字母NA等。

如果处理的数据是自己获取的,那自己知道缺失值是怎么定义的,如果数据是其他人提供的,一般会同时提供数据的说明文档,说明文档中会注明缺失值的定义方式。

对于自定义缺失值,不能用isnull()等三个函数来判断,不过可以用isin()函数来判断。找到这些值后,将其替换成np.nan,数据就只有空值一种缺失值了。

此外,在数据处理的过程中,也可能产生缺失值,如除0计算,数字与空值计算等。

二、判断缺失值

1. 自定义缺失值的判断和替换

Python Pandas知识点之缺失值处理详解

isin(values): 判断Series或DataFrame中是否包含某些值,可以传入一个可迭代对象、Series、DataFrame或字典。在我们判断某个自定义的缺失值是否存在于数据中时,用列表的方式传入就可以了。

replace(to_replace=None, value=None): 替换Series或DataFrame中的指定值,一般传入两个参数,to_replace为被替换的值,value为替换后的值。to_replace和value不仅支持Python中的整型、字符串、列表、字典等,还支持正则表达式。

使用replace()时,默认返回原数据的一个副本,replace()中的inplace参数默认为False,将inplace参数修改为True,则会修改数据本身。其他参数这里就不展开了,有需要可以自己添加。

其实replace()函数已经可以用于缺失值的填充处理了,直接一步到位,而不用先替换成空值再处理。当然,先替换成空值,可以与空值一起处理。

2. 空值判断

Python Pandas知识点之缺失值处理详解

isnull(): 判断Series或DataFrame中是否包含空值,与isna()结果相同,与notnull()结果相反。返回结果是一个与原数据形状相同的Series或DataFrame。

如果数据很多,我们不可能肉眼观察返回结果中的布尔值,所以需要借助numpy中的any()函数或all()函数,进一步对结果进行判断。

三、删除缺失值

Python Pandas知识点之缺失值处理详解

dropna(axis=0, how="any", thresh=None, subset=None, inplace=False): 删除Series或DataFrame中的空值。

Python Pandas知识点之缺失值处理详解

axis: axis参数默认为0('index'),按行删除,即删除有空值的行。将axis参数修改为1或‘columns',则按列删除,即删除有空值的列。在实际的应用中,一般不会按列删除,例如数据中的一列表示年龄,不能因为年龄有缺失值而删除所有年龄数据。

Python Pandas知识点之缺失值处理详解

how: how参数默认为any,只要一行(或列)数据中有空值就会删除该行(或列)。将how参数修改为all,则只有一行(或列)数据中全部都是空值才会删除该行(或列)。

Python Pandas知识点之缺失值处理详解

thresh: 表示删除空值的界限,传入一个整数。如果一行(或列)数据中少于thresh个非空值(non-NA values),则删除。​也就是说,一行(或列)数据中至少要有thresh个非空值,否则删除。

Python Pandas知识点之缺失值处理详解

subset: 删除空值时,只判断subset指定的列(或行)的子集,其他列(或行)中的空值忽略,不处理。当按行进行删除时,subset设置成列的子集,反之。

inplace: 默认为False,返回原数据的一个副本。将inplace参数修改为True,则会修改数据本身。

删除缺失值,必然会导致数据量的减少,如果缺失值占数据的比例较大,比如超过了数据的10%(具体标准根据项目来定),删除数据对数据分析的结果会有很大的影响,不合理。

四、填充缺失值

Python Pandas知识点之缺失值处理详解

fillna(value=None, method=None, axis=None, inplace=False, limit=None): 填充Series或DataFrame中的空值。

value: 表示填充的值,可以是一个指定值,也可以是字典, Series或DataFrame。

Python Pandas知识点之缺失值处理详解

method: 填充的方式,默认为None。有 ffill,pad,bfill,backfill 四种填充方式可以使用,ffill 和 pad 表示用缺失值的前一个值填充,如果axis=0,则用空值上一行的值填充,如果axis=1,则用空值左边的值填充。假如空值在第一行或第一列,以及空值前面的值全都是空值,则无法获取到可用的填充值,填充后依然保持空值。bfill 和 backfill 表示用缺失值的后一个值填充,axis的用法以及找不到填充值的情况同 ffill 和 pad 。

注意:当指定填充方式method时,不能同时指定填充值value,否则报错。

axis: 通常配合method参数使用,axis=0表示按行,axis=1表示按列。

Python Pandas知识点之缺失值处理详解

limit: 表示填充执行的次数。如果是按行填充,则填充一行表示执行一次,按列同理。

Python Pandas知识点之缺失值处理详解

在缺失值填充时,填充值是自定义的,对于数值型数据,最常用的两种填充值是用该列的均值和众数。DataFrame的众数也是一个DataFrame数据,众数可能有多个(极限情况下,当数据中没有重复值时,众数就是原DataFrame本身),所以用mode()函数求众数时取第一行用于填充就行了。

Python Pandas知识点之缺失值处理详解

除了可以在fillna()函数中传入method参数指定填充方式外,Pandas中也实现了不同填充方式的函数,可以直接调用。

pad(axis=0, inplace=False, limit=None): 用缺失值的前一个值填充。

ffill(): 同pad()。

bfill(): 用缺失值的后一个值填充。

backfill(): 同bfill()。

在进行数据填充时,可能填充之后还有空值,如用ffill 和 pad填充时,数据第一行就是空值。对于这种情况,需要在填充前人工进行判断,避免选择不适合的填充方式,并在填充完成后,再检查一次数据中是否还有空值。

总结

到此这篇关于Python Pandas知识点之缺失值处理的文章就介绍到这了,更多相关Pandas缺失值处理内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
跟老齐学Python之用Python计算
Sep 12 Python
利用Python的装饰器解决Bottle框架中用户验证问题
Apr 24 Python
Python SQLite3简介
Feb 22 Python
Python中将变量按行写入txt文本中的方法
Apr 03 Python
解决Pycharm中import时无法识别自己写的程序方法
May 18 Python
Python如何爬取实时变化的WebSocket数据的方法
Mar 09 Python
python绘制无向图度分布曲线示例
Nov 22 Python
Python实现不规则图形填充的思路
Feb 02 Python
pytorch梯度剪裁方式
Feb 04 Python
jupyter使用自动补全和切换默认浏览器的方法
Nov 18 Python
基于PyTorch中view的用法说明
Mar 03 Python
python爬虫--selenium模块
Mar 31 Python
Pytorch实现图像识别之数字识别(附详细注释)
浅谈Python基础之列表那些事儿
详解Python牛顿插值法
Python中使用subprocess库创建附加进程
有趣的二维码:使用MyQR和qrcode来制作二维码
python保存大型 .mat 数据文件报错超出 IO 限制的操作
May 10 #Python
Python批量将csv文件转化成xml文件的实例
You might like
php中处理模拟rewrite 效果
2006/12/09 PHP
php 动态添加记录
2009/03/10 PHP
LotusPhp笔记之:基于ObjectUtil组件的使用分析
2013/05/06 PHP
PHP7匿名类用法分析
2016/09/26 PHP
javascript学习笔记(十四) window对象使用介绍
2012/06/20 Javascript
一个简单的弹性返回顶部JS代码实现介绍
2013/06/09 Javascript
js页面跳转的问题(跳转到父页面、最外层页面、本页面)
2013/08/14 Javascript
jquery $(this).attr $(this).val方法使用介绍
2013/10/08 Javascript
jquery控制页面部分刷新的方法
2015/06/24 Javascript
解析JavaScript的ES6版本中的解构赋值
2015/07/28 Javascript
js实现Form栏显示全格式时间时钟效果代码
2015/08/19 Javascript
jQuery解析json格式数据简单实例
2016/01/22 Javascript
jquery获取所有选中的checkbox实现代码
2016/05/26 Javascript
AngularJS基础 ng-src 指令简单示例
2016/08/03 Javascript
Angular2 (RC5) 路由与导航详解
2016/09/21 Javascript
angularjs过滤器--filter与ng-repeat配合有奇效
2017/04/20 Javascript
jQuery实现可兼容IE6的淡入淡出效果告警提示功能示例
2017/09/20 jQuery
vue实现文章内容过长点击阅读全文功能的实例
2017/12/28 Javascript
vue.js分页中单击页码更换页面内容的方法(配合spring springmvc)
2018/02/10 Javascript
js时间转换毫秒的实例代码
2019/08/21 Javascript
Android模拟器无法启动,报错:Cannot set up guest memory ‘android_arm’ Invalid argument的解决方法
2016/07/01 Python
Python中的复制操作及copy模块中的浅拷贝与深拷贝方法
2016/07/02 Python
python使用celery实现异步任务执行的例子
2019/08/28 Python
python selenium 执行完毕关闭chromedriver进程示例
2019/11/15 Python
Python实现文件压缩和解压的示例代码
2020/08/12 Python
css3media响应式布局实例
2016/07/08 HTML / CSS
法院实习人员自我鉴定
2013/09/26 职场文书
工程部经理岗位职责
2013/12/08 职场文书
美食节目策划方案
2014/05/31 职场文书
我的梦想演讲稿1000字
2014/08/21 职场文书
工伤私了协议书范本
2014/11/24 职场文书
毕业典礼邀请函
2015/01/31 职场文书
2015年幼儿园教研活动总结
2015/03/25 职场文书
李强优秀员工观后感
2015/06/16 职场文书
2016年五一促销广告语
2016/01/28 职场文书
有趣的二维码:使用MyQR和qrcode来制作二维码
2021/05/10 Python